栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

HDFS分布式文件系统 理论

HDFS分布式文件系统 理论

果然欠下的帐终究还是要还回来的,之前不好好学Hadoop,现在全给补回来,看着这些既熟悉又陌生的知识点,只得静下心好好过一遍,毕竟当初也是只有期末考试之前才集中性背过,那种不结合实践操作的理论背诵是背了就忘,没法理解的。来回顾HDFS的理论部分(安装好HDFS之后再来回顾的)

一.HDFS概述

          HDFS 是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行在廉价的商用服务器上。源于GFS,一个GFS的克隆版本。

        数据量越来越大,一台服务器存储有限,所以数据应该分配到更多机器的磁盘中,因此需要一种系统来管理多台机器上的文件,就是分布式文件管理系统。高容错的特点可以是他部署在廉价的通用硬件上,提供高吞吐率的数据访问,适合那些需要处理海量数据集的应用程序。

它有以下特点:

高容错性:

        1.上传数据自动保存多个副本,他是通过增加副本的数量,来增加他的容错性。

        2.如果一个副本丢失,HDFS机制会复制其他机器上的副本,而我们不必关注它的实现(自动完成)

支持超大文件:

        超大文件指的是几百GB甚至几个TB的文件,一般来说一个Hadoop文件系统会存储TB,PB级别的数据。

流式数据访问:

        HDFS处理的数据规模都比较大,应用一次需要访问大量的数据。同时,在这些应用一般是批量处理,而不是用户交互式处理。HDFS使应用程序能够以流的形式访问数据集,注重的是数据的吞吐量,而不是访问数据的速度。

简化的一致性模型:

        大部分的HDFS程序操作文件时需要一次写入,多次读取。在HDFS中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了,这样简单的一致性模型,有利于提供高吞吐量的数据访问模型。

二.HDFS系统架构

 

 角色:Namenode 、DateNode、Client

 Client 客户端可以往里面写数据,红框里就是大文件分成的一个个数据块Blocks,分散到各个节点

节点中文件在多个机器有副本,一旦一个副本丢失,会复制其他机器上的副本,高容错性。


先发布,明天早上再写。

任务安排:下午学习新的知识点,次日早上总结学过的知识点在cdsn 

三.HDFS HA
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/753211.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号