栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop基础学习笔记系列(三)Hadoop堆栈

Hadoop基础学习笔记系列(三)Hadoop堆栈

目录

1 基本Hadoop组件2 应用和框架(在基本组件之上)3 HDFS设计

最初的设计Hadoop2的HDFS 4 MR框架和YARN

MR框架最初的MR框架下一代:YARN

1 基本Hadoop组件

Hadoop CommonHDFSYARNMR 2 应用和框架(在基本组件之上)

Hbase
支持大型表的可扩展数据仓库Hive
数据仓库基础设施,提供数据摘要和即席查询Pig
高级数据流语言和并行计算执行框架Spark
快速通用的计算引擎,可以使用HDFS文件系统。
3 HDFS设计 最初的设计

可扩展的分布式文件系统使用节点(nodes)将数据分布在本地磁盘上多个低成本商品磁盘,高performance

goal:

resilience(快速恢复的能力)(因为有多个磁盘工作,要防止其中的磁盘failure)可扩展本地应用轻量级

设计

多个datanode,data存储在datanode中,默认会复制三份。作用:管理存储、为用户提供读写request,数据块的增删改单个namenode Hadoop2的HDFS

HDFS Federation
存在多个namenode,可以增加命名空间的可扩展性以及performance,同时可以隔离应用,这样在使用应用的时候就不会影响整个文件系统。

多个namemode server多个命名空间(你真的知道什么是 “命名空间” 吗? - 知乎 (zhihu.com))数据存在数据块池中(block pool)高可用性(冗余namenode)异构存储和归档存储(heterogeneous storage and archival storage)
4 MR框架和YARN MR框架

mapreduce原理_mapreduce执行原理详解,各个阶段做了什么?_weixin_39583029的博客-CSDN博客
深入浅出讲解 MapReduce_哔哩哔哩_bilibili
MapReduce shuffle过程详解

软件框架——为了编写并行数据处理应用

优点:

MR计算和HDFS存储节点是same,直接在datanode上进行计算,不用移动data 最初的MR框架

单个 jobtracker每个job一个tasktracker
下一代:YARN

将资源管理和job计划&监控分离Global ResourceManager每个节点都有NodeManager每个应用都有ApplicationMaster

YARN的其他特征

高可用的RM:备用RMTimeLine ServerCgroups:管理容器使用的资源Secure Container

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/734323.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号