Hadoop概念科普_大数据前沿技术-中关村在线

Hadoop概念科普

　　在了解了Hadoop的身世和现在适合的应用场景之后，笔者要跟大家科普一下Hadoop的基础架构和主要概念。

　　NameNode：namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。这是由唯一一台主机专门保存，当然这台主机如果出错，NameNode就失效了，需要启动备用主机运行NameNode。

　　DataNode：负责存储，当然大部分容错机制都是在datanode上实现的。分布在廉价的计算机上，用于存储Block块文件。

　　MapReduce：通俗说MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型，将文件分布式存储到硬盘是第一步，而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。

　　Block：也叫作数据块，默认大小为64MB。每一个block会在多个datanode上存储多份副本，默认是3份。

　　Rack：机柜，一个block的三个副本通常会保存到两个或者两个以上的机柜中。

数据太大？你该了解Hadoop分布式文件系统