栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

HDFS读数据流程

HDFS读数据流程

一:HDFS客户端通过DistributedFileSystem向NameNode请求获得文件开始或全部block列表;

二:在这个列表中对于每个返回的block,都包含其对应数据所在的DataNode地址;

三:这些DataNode会按照Hadoop定义的集群拓扑结构计算得出与HDFS客户端之间的距离,然后再进行排序,HDFS客户端会优先从距离最近的DataNode上读取数据;

四:HDFS客户端会利用FSDataInputStream的read()方法读取数据;

五:FSDataInputStream中包含的DFSInputStream找出离HDFS客户端最近的DataNode并连接DataNode,这时如果出现读取失败等异常情况,DFSInputStream会尝试连接下一个离它最近的DataNode,连接成功后,在数据流中反复调用read()函数,直到这个块全部读完为止。

六:当第一个block块读完,就会关闭指向第一个block块的DataNode的连接,接着读取下一个block块,如果所有的block块都读取完,就会关闭所有的数据流。

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/423367.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号