Hadoop学习笔记①_大数据系统

Hadoop学习笔记①

Hadoop初学笔记①

一、hadoop是什么
1、hadoop是apache开发的分布式系统基础架构
2、主要解决海量数据存储和海量数据的分析计算
3、hadoop通常指更广泛的hadoop生态圈（包括hive,hbase,hdfs,mapreduce等）

二、hadoop三大发行版本
Apache、Cloudera、Hortonworks
A最原始最基础
C内部集成很多大数据框架
H文档较好

三、hadoop优势
1、高可靠性（底层维护多个数据副本）
2、高拓展性（可分配任务数据，方便拓展）
3、高效性（mapreduce思想下，hadoop并行计算）
4、高容错性（自动重新分配失败的任务）

四、hadoop组成
①hadoop1.x组成
Common（辅助工具）
HDFS（数据存储）
MapReduce（计算+资源调度）
②hadoop2.x组成
Common
HDFS
YARN（资源调度）
MapReduce（计算）
③hadoop3.x组成
组成上并无变化

五、HDFS架构概述
hadoop distributed file system
是一个分布式文件系统。
namenode：（数据都存储在什么位置）存储数据元数据，如文件名、文件目录结构、文件属性，以及每个文件的块列表和块所在的datanode等。
datanode：（存储数据）在本地文件系统存储文件块数据，以及块数据的校验和。
2NN(secondary namenode)：（秘书）每隔一段时间对namenode元数据备份。

六、YARN架构概述
yet another resource negotiator
属hadoop的资源管理器
ResourceManager：集群资源总管
NodeManager：节点资源管理
ApplicationMaster：单个任务运行
Container：容器，相当于一台独立服务器，里面封装任务运行所需资源，如内存、cpu、磁盘、网络等。
Δ利用容器运行的好处是更加灵活利用资源，用完即释放。
Δ客户端可有多个；集群可运行多个ApplicationMaster；每个namenode上可有多个容器

七、MapReduce架构概述
Map阶段并行处理输入数据（分配任务至各服务器）
Reduce阶段汇总Map阶段结果（汇总各服务器结果）

八、HDFS,YARN,MapReduce三者关系

九、大数据技术生态体系

感谢尚硅谷提供的免费学习视频！
厚积薄发！

Hadoop学习笔记①

大数据系统相关栏目本月热门文章