大数据
    作者:鲁畅

    数据太大?你该了解Hadoop分布式文件系统

         [ 中关村在线 原创 ] 暂无评论

    Hadoop概念科普

      在了解了Hadoop的身世和现在适合的应用场景之后,笔者要跟大家科普一下Hadoop的基础架构和主要概念。

      NameNode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode就失效了,需要启动备用主机运行NameNode。

      DataNode:负责存储,当然大部分容错机制都是在datanode上实现的。分布在廉价的计算机上,用于存储Block块文件。

      MapReduce:通俗说MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。

      Block:也叫作数据块,默认大小为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。

      Rack:机柜,一个block的三个副本通常会保存到两个或者两个以上的机柜中。

    提示:支持键盘“← →”键翻页
    本文导航
    • 第2页:Hadoop概念科普

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询