HDFS分布式文件系统理论

果然欠下的帐终究还是要还回来的，之前不好好学Hadoop，现在全给补回来，看着这些既熟悉又陌生的知识点，只得静下心好好过一遍，毕竟当初也是只有期末考试之前才集中性背过，那种不结合实践操作的理论背诵是背了就忘，没法理解的。来回顾HDFS的理论部分（安装好HDFS之后再来回顾的）

一.HDFS概述

HDFS 是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行在廉价的商用服务器上。源于GFS，一个GFS的克隆版本。

数据量越来越大，一台服务器存储有限，所以数据应该分配到更多机器的磁盘中，因此需要一种系统来管理多台机器上的文件，就是分布式文件管理系统。高容错的特点可以是他部署在廉价的通用硬件上，提供高吞吐率的数据访问，适合那些需要处理海量数据集的应用程序。

它有以下特点：

高容错性：

1.上传数据自动保存多个副本，他是通过增加副本的数量，来增加他的容错性。

2.如果一个副本丢失，HDFS机制会复制其他机器上的副本，而我们不必关注它的实现（自动完成）

支持超大文件：

超大文件指的是几百GB甚至几个TB的文件，一般来说一个Hadoop文件系统会存储TB，PB级别的数据。

流式数据访问：

HDFS处理的数据规模都比较大，应用一次需要访问大量的数据。同时，在这些应用一般是批量处理，而不是用户交互式处理。HDFS使应用程序能够以流的形式访问数据集，注重的是数据的吞吐量，而不是访问数据的速度。

简化的一致性模型：

大部分的HDFS程序操作文件时需要一次写入，多次读取。在HDFS中，一个文件一旦经过创建、写入、关闭后，一般就不需要修改了，这样简单的一致性模型，有利于提供高吞吐量的数据访问模型。

二.HDFS系统架构

角色：Namenode 、DateNode、Client

Client 客户端可以往里面写数据，红框里就是大文件分成的一个个数据块Blocks，分散到各个节点

节点中文件在多个机器有副本，一旦一个副本丢失，会复制其他机器上的副本，高容错性。

先发布，明天早上再写。

任务安排：下午学习新的知识点，次日早上总结学过的知识点在cdsn

三.HDFS HA

HDFS分布式文件系统 理论