栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop之HDFS

Hadoop之HDFS

文章目录

HDFS

HDFS概述

HDFS概念HDFS位置HDFS优点HDFS缺点 HDFS基本组成

HDFS基本组成数据块
前言:小白学习hadoop的第三天,刚开始写文档,服务器也不会玩,差点给我劝退了,2核4g的腾讯云被黑了去挖矿,cup跑的100%,当初还不知道,为啥执行map任务咋那么慢,就向大佬取取经,才去腾讯云登陆查看监控,结果发现被黑两天了,最后作为小白的我必然是一键重装系统,又重新初始化了集群。才开始今天hdfs的理论学习。最后想问问大佬有啥好的学习方法吗,理论知识真不想看,但是不看肯定不行的。

HDFS HDFS概述

1.掌握hdfs是什么

2.hdfs在hadoop集群处于什么位置

3.了解hdfs的优缺点

HDFS概念

HDFS:Hadoop Distributed File System,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。支持海量数据的存储,成百上千的计算机组成存储集群,HDFS可以运行在低成本的硬件之上,具有的高容错、高可靠性、高可扩展性、高吞吐率等特征,非常适合大规模数据集上的应用 HDFS位置

HDFS优点

    高容错性

    数据自动保存多个副本
    副本丢失后,自动恢复

    适合批处理

    移动计算而非移动数据
    数据位置暴露给计算框架

    适合大数据处理

    GB、TB、甚至PB级数据
    百万规模以上的文件数量
    10K+节点

    流式文件访问

    一次性写入,多次读取
    保证数据一致性

    可构建在廉价机器上

    通过多副本提高可靠性
    提供了容错和恢复机制

HDFS缺点

    不适合低延迟数据访问

    比如毫秒级
    低延迟与高吞吐率

    不适合小文件存取

    占用NameNode大量内存
    寻道时间超过读取时间

    不适合并发写入、文件随机修改

    一个文件只能有一个写入者
    仅支持append

HDFS基本组成

1.hdfs系统包含哪些组件
2.数据块的概念,及其好处。
3.各个流程中,各组件的工作

HDFS基本组成


​ 图自尚硅谷

数据块

数据块设计好处:

支持大规模文件存储简化系统设计适合数据备份

数据块大小设置:

hdfs-site.xml中的dfs.blocksize属性设置的,默认值是128M

数据块设置注意不能太小,也不能太大:

设置太小,会增加寻找数据地址时间,程序一直在找块开始的位置。设置太大,从磁盘传输数据的时间会明显大于定位块开始所需时间。导致程序在处理此数据时,会非常慢

数据块设置注意不能太小,也不能太大:

设置太小,会增加寻找数据地址时间,程序一直在找块开始的位置。设置太大,从磁盘传输数据的时间会明显大于定位块开始所需时间。导致程序在处理此数据时,会非常慢

HDFS块的大小设置主要取决于磁盘传输速率

								.	未完待续.................

往期笔记:
hadoop学习笔记第一集服务器环境搭建
hadoop学习笔记第二集集群配置
hadoop学习笔记第三集历史配置

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/760984.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号