实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hdfs数据存储(hadoop分布式文件系统hdfs具有什么特性)

大数据系统更新时间：2026-05-22 01:00:34 发布时间：1522天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

目录

1.1HDFS 的架构

1.2 HDFS 的架构

1.3 HDFS 采用的是主从架构模型（Master/Slave）

2.1 HDFS 的优势

2.2 HDFS 的劣势

3.1 HDFS 写流程

3.2 HDFS 写流程

4.1 HDFS 读流程

4.2 HDFS NameNode 的元数据

5.1 Checkpoint

1.1HDFS 的架构
        HDFS：Hadoop 中的分布式文件系统

        Hadoop Distributed File System，存储和管理海量数据

        文件系统（ File System ）：为了管理文件，在存储系统上建立的一些文件组织和结构，主要包括文件目录和文件本身
         分布式（Distributed）：由多台服务器组成，每台服务器执行不同的功能，不同的功能配合起来形成完整的功能

1.2 HDFS 的架构
         HDFS 上存储的文件由块和元数据组成
         block（块）：文件按照 block size（128M）切分为不同的 block，不同的 block 存储在不同的 DataNode 上    （数据节点）
         每个 block 会冗余存储 repliaction （3）份， 514M 的文件会切分为 5 个 block，每个 block 存储 3 份；在 HDFS 上存储 15 个 block，共占用 1542M 存储空间
         meta data（元数据）：存储在 NameNode 上，文件的描述信息：名字，大小，创建时间等等；文件的 block 信息：每个 block 的存储位置； {block1: 1, 2,5; block2: 1,3,4; …}

1.3 HDFS 采用的是主从架构模型（Master/Slave）
         1 个 NameNode（Master/主人/分配任务）：接收客户端请求，管理元数据，维护文件系统的目录树
         多个 DataNode（Slave/奴隶/执行任务）：存储 block，实现上传下载功能，定期（默认每隔 3 秒）汇报自身信息（心跳时间）
         1 个 SecondaryNameNode：辅助 NameNode 维护目录树

2.1 HDFS 的优势
        设备低成本：可以部署在廉价服务器搭建的集群上
         高容错：数据自动保存多个副本，副本丢失后，自动恢复
         适合批处理：一次写入，多次查询
         适合存储大文件， TB 甚至 PB 级别的数据量，百万规模以上的文件数量     1TB = 1024GB
10K+ 的节点数量

2.2 HDFS 的劣势
         不适合低延迟访问, 注重吞吐量，牺牲实时性, 达不到毫秒级别的延迟
         不适合存储大量小文件（小于 block size 的文件）;
         占用 NameNode 大量内存, 寻道时间超过读取时间
         不适合修改文件, 文件的修改只支持追加操作, 一个文件只能有一个修改者;

3.1 HDFS 写流程
         写流程（上传文件流程）中的三个角色
         Client（客户端） :用户通过客户端与 HDFS 进行交互
         NameNode:   接受客户端的请求,指定一组用于存储数据的 DataNode
         DataNode:存储数据

3.2 HDFS 写流程
         1. Client 向 NameNode 申请上传文件
         2. NameNode 判断是否允许上传文件 ;   文件是否已存在, 用于存储文件的目录是否存在
         3. NameNode 返回允许上传
         4. Client 对文件按照 blocksize 进行切片, block size 默认是 128M
         5. Client 向 NameNode 申请上传 block1
         6. NameNode 挑选 replication 个 DataNode, replication 默认值是 3, 尽量避免挑选存储太满或者工作太忙的 DataNode, 多个 DataNode 的位置尽可能分散
         7. 返回挑选的 DataNode 列表dn1, dn2, dn6
         8. Client 发送 block1 给 DataNode1,DataNode1 发送 block1 给 DataNode2, DataNode2 发送 block1 给 DataNode6
         9. DataNode6 回复 DataNode2 接收完毕, DataNode2 回复 DataNode1接收完毕, DataNode1 回复 Client 接收完毕
         10. DataNode1,DataNode2,DataNode6 , 向 NameNode 汇报接收 block1 完毕

4.1 HDFS 读流程
         读流程（下载文件流程）中的三个角色
         Client（客户端）用户通过客户端与 HDFS 进行交互
         NameNode接受客户端的请求指定一组用于下载数据的 DataNode
         DataNode 下载数据
         1. Client 向 NameNode 申请下载文件
         2. NameNode 查询文件的元数据，为每个 block 挑选一个用于下载的 DataNode

         3. 返回挑选的 DataNode 列表
   block1: DataNode1
   block2: DataNode2…
        4. Client 向 DataNode1 申请下载 block1
         5. DataNode1 发送 block1 给 Client
         6. Client 依次从 DataNode 下载所有 block
         7. Client 合并所有 block 为文件

        4.2 HDFS NameNode 的元数据
         HDFS 的元数据（meta data）包含三部分
        目录树      文件的普通属性文件的数据块信息
        NameNode 维护目录树
         meta data
         NameNode 在内存中维护的元数据目录树改变时直接修改 meta data meta data 始终是最新的目录树关闭 HDFS，数据丢失
         fsimage NameNode 在磁盘上存储的元数据为了避免频繁读写磁盘，目录树改变时不会修改 fsimage fsimage 存储着 HDFS 启动时的目录树
         关闭 HDFS，数据不丢失 edits 记录了目录树的每一次变更操作NameNode 维护目录树
         HDFS 重启后，NameNode 可以加载 fsimage 中的目录树到内存，对目录树执行一遍 edits 中的操作，即可获得最新目录树
         如果 edits 中积累的操作数量非常多，这个还原过程会消耗很长的时间

5.1   Checkpoint
        定期更新 fsimage 中存储的目录树可以缩短还原时间
        触发条件（满足其一即可）：
                1 小时 edits 文件的大小超过 64M
                检测周期：五分钟为了提高效率，这个操作交给 SecondaryNameNode 执行

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/771384.html

上一篇 python f字符串({:}python)

下一篇 flink1.11(flink1.12.0)

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号