HDFS
HDFS概述
HDFS概念HDFS位置HDFS优点HDFS缺点 HDFS基本组成
HDFS基本组成数据块
前言:小白学习hadoop的第三天,刚开始写文档,服务器也不会玩,差点给我劝退了,2核4g的腾讯云被黑了去挖矿,cup跑的100%,当初还不知道,为啥执行map任务咋那么慢,就向大佬取取经,才去腾讯云登陆查看监控,结果发现被黑两天了,最后作为小白的我必然是一键重装系统,又重新初始化了集群。才开始今天hdfs的理论学习。最后想问问大佬有啥好的学习方法吗,理论知识真不想看,但是不看肯定不行的。
1.掌握hdfs是什么
2.hdfs在hadoop集群处于什么位置
3.了解hdfs的优缺点
HDFS概念HDFS:Hadoop Distributed File System,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。支持海量数据的存储,成百上千的计算机组成存储集群,HDFS可以运行在低成本的硬件之上,具有的高容错、高可靠性、高可扩展性、高吞吐率等特征,非常适合大规模数据集上的应用 HDFS位置
HDFS优点高容错性
数据自动保存多个副本
副本丢失后,自动恢复
适合批处理
移动计算而非移动数据
数据位置暴露给计算框架
适合大数据处理
GB、TB、甚至PB级数据
百万规模以上的文件数量
10K+节点
流式文件访问
一次性写入,多次读取
保证数据一致性
可构建在廉价机器上
通过多副本提高可靠性
提供了容错和恢复机制
不适合低延迟数据访问
比如毫秒级
低延迟与高吞吐率
不适合小文件存取
占用NameNode大量内存
寻道时间超过读取时间
不适合并发写入、文件随机修改
一个文件只能有一个写入者
仅支持append
1.hdfs系统包含哪些组件
2.数据块的概念,及其好处。
3.各个流程中,各组件的工作
图自尚硅谷
数据块数据块设计好处:
支持大规模文件存储简化系统设计适合数据备份
数据块大小设置:
hdfs-site.xml中的dfs.blocksize属性设置的,默认值是128M
数据块设置注意不能太小,也不能太大:
设置太小,会增加寻找数据地址时间,程序一直在找块开始的位置。设置太大,从磁盘传输数据的时间会明显大于定位块开始所需时间。导致程序在处理此数据时,会非常慢
数据块设置注意不能太小,也不能太大:
设置太小,会增加寻找数据地址时间,程序一直在找块开始的位置。设置太大,从磁盘传输数据的时间会明显大于定位块开始所需时间。导致程序在处理此数据时,会非常慢
HDFS块的大小设置主要取决于磁盘传输速率
. 未完待续.................
往期笔记:
hadoop学习笔记第一集服务器环境搭建
hadoop学习笔记第二集集群配置
hadoop学习笔记第三集历史配置



