2021-10-26_大数据系统

2021-10-26

（1）HDFS写数据流程

1.HDFS概述
HFDS是Hadoop的核心，是分布式计算中数据储存管理的基础，是建立在大量普通配置的计算机组成的集群上，作为最底层的分布式储存服务支持系统，它解决了大数据存储问题的需求。（大数据技术及应用李雁翎）

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS也是Apache Hadoop Core项目的一部分。（百度百科）

2.HDFS如何写入数据
①跟NameNode通信请求上传文件，NameNode检查目标文件是否已经存在，父目录是否已经存在。

②NameNode返回是否可以上传。

③Client先对文件进行切分，请求第一个block该传输到哪些DataNode服务器上。

④NameNode返回3个DataNode服务器DataNode 1，DataNode 2，DataNode 3。

⑤Client请求3台中的一台DataNode 1(网络拓扑上的就近原则，如果都一样，则随机挑选一台DataNode)上传数据（本质上是一个RPC调用，建立pipeline）,DataNode 1收到请求会继续调用DataNode 2,然后DataNode 2调用DataNode 3，将整个pipeline建立完成，然后逐级返回客户端。

⑥Client开始往DataNode 1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以pocket为单位。写入的时候DataNode会进行数据校验，它并不是通过一个packet进行一次校验而是以chunk为单位进行校验（512byte）。DataNode 1收到一个packet就会传给DataNode 2，DataNode 2传给DataNode 3，DataNode 1每传一个pocket会放入一个应答队列等待应答。

⑥当一个block传输完成之后，Client再次请求NameNode上传第二个block的服务器。

2021-10-26

大数据系统相关栏目本月热门文章