果然欠下的帐终究还是要还回来的,之前不好好学Hadoop,现在全给补回来,看着这些既熟悉又陌生的知识点,只得静下心好好过一遍,毕竟当初也是只有期末考试之前才集中性背过,那种不结合实践操作的理论背诵是背了就忘,没法理解的。来回顾HDFS的理论部分(安装好HDFS之后再来回顾的)
一.HDFS概述HDFS 是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行在廉价的商用服务器上。源于GFS,一个GFS的克隆版本。
数据量越来越大,一台服务器存储有限,所以数据应该分配到更多机器的磁盘中,因此需要一种系统来管理多台机器上的文件,就是分布式文件管理系统。高容错的特点可以是他部署在廉价的通用硬件上,提供高吞吐率的数据访问,适合那些需要处理海量数据集的应用程序。
它有以下特点:
高容错性:
1.上传数据自动保存多个副本,他是通过增加副本的数量,来增加他的容错性。
2.如果一个副本丢失,HDFS机制会复制其他机器上的副本,而我们不必关注它的实现(自动完成)
支持超大文件:
超大文件指的是几百GB甚至几个TB的文件,一般来说一个Hadoop文件系统会存储TB,PB级别的数据。
流式数据访问:
HDFS处理的数据规模都比较大,应用一次需要访问大量的数据。同时,在这些应用一般是批量处理,而不是用户交互式处理。HDFS使应用程序能够以流的形式访问数据集,注重的是数据的吞吐量,而不是访问数据的速度。
简化的一致性模型:
大部分的HDFS程序操作文件时需要一次写入,多次读取。在HDFS中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了,这样简单的一致性模型,有利于提供高吞吐量的数据访问模型。
二.HDFS系统架构
角色:Namenode 、DateNode、Client
Client 客户端可以往里面写数据,红框里就是大文件分成的一个个数据块Blocks,分散到各个节点
节点中文件在多个机器有副本,一旦一个副本丢失,会复制其他机器上的副本,高容错性。
先发布,明天早上再写。
任务安排:下午学习新的知识点,次日早上总结学过的知识点在cdsn
三.HDFS HA


