Hadoop之HDFS的读写流程

1、Hadoop之HDFS的读流程

（1）客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
（2）NameNode返回是否可以上传。
（3）客户端发出请求，询问nameNode，第一个 Block需要上传到哪些DataNode服务器上。
（4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
（5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会一边进行副本拷贝，一边继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
（6）dn1、dn2、dn3逐级应答客户端。
（7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet（64K）为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列（并将该packet缓存起来），等待应答，应答成功，会删除该packet,目的是为数据丢失作一个备份。
（8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

2、网络拓扑-节点距离计算

节点距离：两个节点到达最近的共同祖先的距离总和。

3、副本存储节点选择

如果有三个服务节点

4、HDFS的读数据流程

（1）客户端通过DistributedFileSystem向NameNode请求下载文件，NameNode通过查询权限和确认资源是否存在，确定都没有问题之后，通过查询元数据，找到文件块所在的DataNode地址，然后返回给客户端对象。
（2）客户端创建一个文件流，挑选一台DataNode（默认采取就近原则（负载能力达到极限会随机切换到另外的DataNode）服务器，请求读取数据。
（3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
（4）客户端以串行读的方式来进行读取block(block1，读取完毕之后，再去读取block2)，并且客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

Hadoop之HDFS的读写流程

大数据系统相关栏目本月热门文章