HDFS理论重难点_大数据系统

HDFS理论重难点

在前两篇博客大家看了一下，我几乎都是草草结束了。那么今天我们就以上面的水平去面试，肯定不够呀。比如我们一起来看看下面这些问题。

HDFS数据流

我们上面看完你的操作，知道了你会操作了，既可以使用IDEA连接虚拟机使用，也可以直接使用shell脚本，直接使用虚拟机进行hdfs的数据流操作，那么你知道它是怎样运作的吗？

HDFS写数据流程

一起来谈谈hdfs写数据的流程吧。先上个图，一起看看。

（1）客户端通过Distributed FileSystem（分布式文件系统）模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

（2）NameNode返回是否可以上传。

（3）客户端请求第一个 Block上传到哪几个DataNode服务器上。

（4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。

（5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。

（6）dn1、dn2、dn3逐级应答客户端。

（7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。

（8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

思考：在HDFS写数据的流程中，客户端做连接通道时需要与每一台做连接还是和其中一台做连接呢？为什么要这样子做连接呢？

解释：在客服端与DN做连接时，我们只需要做一台集群机器的连接即可，这样子我们进行写数据时，就只需要做一次IO即可，可以节约我们客户机的IO资源。但是要知道，IO次数未减少，只不过，把IO资源放给我们的DN客户机去做了。

HDFS读数据流程

（1）客户端通过DistributedFileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。

（2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。

（3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。

（4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

思考：为什么在读取数据时，我们也需要和多个数据节点做连接，和一个节点做连接不可以吗？

解释：客户端通过API从NameNode获取到数据的存放位置，该存放位置是三份不同副本的位置列表。API会优先选择与客户端位置机架ID相同的副本进行数据读取，否则就随机选择一个副本读取数据。这样子与多个客户端做连接时，是因为我们的数据可能并不是完整的，可能会出现损坏的情况。可以参考上图，当我们某一个节点中的某个文件发生校验和不匹配时，我们就需要从其他节点上的副本找寻我们正确的文件数据。

NameNode和SecondaryNameNode NN和2NN的工作机制

思考：NameNode中的元数据是存储在哪里的？

首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并。

NameNode工作机制

第一阶段：NameNode启动

第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。客户端对元数据进行增删改的请求。NameNode记录操作日志，更新滚动日志。NameNode在内存中对元数据进行增删改。

第二阶段：Secondary NameNode工作

Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

Secondary NameNode请求执行CheckPoint。

NameNode滚动正在写的Edits日志。

将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。

Secondary NameNode加载编辑日志和镜像文件到内存，并合并。

生成新的镜像文件fsimage.chkpoint。

拷贝fsimage.chkpoint到NameNode。

NameNode将fsimage.chkpoint重新命名成fsimage。

DataNode的工作机制

（1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

（2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。

（3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。

（4）集群运行中可以安全加入和退出一些机器。

保证数据完整性

思考：如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号（1）和绿灯信号（0），但是存储该数据的磁盘坏了，一直显示是绿灯，是否很危险？同理DataNode节点上的数据损坏了，却没有发现，是否也很危险，那么如何解决呢？

如下是DataNode节点保证数据完整性的方法。

（1）当DataNode读取Block的时候，它会计算CheckSum。

（2）如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏。

（3）Client读取其他DataNode上的Block。

（4）常见的校验算法 crc（32），md5（128），sha1（160）

（5）DataNode在其文件创建后周期验证CheckSum。

知识拓展

【1】CRC（循环冗余校验）_百度百科 (baidu.com)

【2】

【3】哈希校验_百度百科 (baidu.com)

HDFS理论重难点

大数据系统相关栏目本月热门文章