大数据
    作者:贾凯强

    大数据处理并不难 洞察与升值在眼前

         [ 中关村在线 原创 ] 暂无评论

      大数据处理常用框架

      大数据处理框架负责对系统中的数据进行计算,并且从大量的单一数据点中提取信息和观点。大数据处理框架可以分为三类,批处理框架、流处理框架和混合处理框架。

    大数据处理并不难 采菊东篱见南山
    Hadoop早已证明了自己

      批处理系统是最古老的处理系统之一,其主要适用于操作大容量静态数据集,并在计算过程完成后返回结果,对于一些需要访问全套记录才能完成的计算工作较为合适。而Apache Hadoop则是一种专用于批处理的处理框架,是第一个在开源社区获得极大认可的大数据框架,基于谷歌有关海量数据处理的多篇论文与经验,Hadoop重新实现了相关算法和组件堆栈,简化了大规模批处理技术,提高了易用性。Apache Hadoop可以高效的处理对时间要求不高的大规模数据集。

      流处理系统会对随时进入系统的数据进行计算,其可以处理几乎无限量的数据,但同一时间只能处理一条或很少量数据,不同记录间只维持最小量的状态。流处理框架Apache Storm是最常用的选择,其侧重于极低延迟,甚至可以达到近实时处理的工作负载。Apache Storm可处理海量的数据,而且可以以更低的延迟提供结果,适用于对于延迟需求很高的流处理工作负载。

    大数据处理并不难 采菊东篱见南山
    Spark正在证明自己

      混合处理则是针对一些特殊处理框架同时解决批处理和流处理工作负载。这种框架可用相关的组件和API处理两种类型的数据以实现简化处理。Apache Spark最常见的一种的新一代批处理框架,Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度,可作为独立集群部署与Hadoop集成并取代MapReduce引擎。Spark是多样化工作负载处理任务的最佳选择,其批处理能力以高内存占用为代价提供了速度优势。

      大数据处理是让数据被洞察和升值的过程,经过了处理的数据才会闪现金子的光芒。

    提示:支持键盘“← →”键翻页
    本文导航
    • 第2页:大数据处理常用框架

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询