栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

开源代码框架hadoop

开源代码框架hadoop

  • 架构

     	 - HDFS:数据存储
     	 		-NameNode:元数据(索引)
     	 		-DataNode:具体的数据
     	 		-SeconDaryNameNode:不是NameNode的热备
     	 - Yarn:资源调度
     	 		-ResourceManager:所有节点的老大(一个RM管理多个NM)
     	 		-NodeManager:单个节点的老大(一个NM管理多个container)
     	 		-container:每一个容器都是一个资源的集合(硬盘,内存,cpu,网络)
     	 				-	ApplicationMaster:单个任务的老大
     	 				-	所有的MapReduce的任务都是Container中运行的
     	 		-	选择节点的时候原则(就近 - 随机)
    

		 - MapReduse:计算
		 		- MapTask
		 		- ReduceTask
HDFS
  • 优缺点

    • 优点:
      • 默认3副本,容灾性强(高容错率)
      • 分布式的(适合大数据的离线处理)
      • 对机器要求不高,廉价的机器就可以集群
    • 缺点:
      • 不适合做实时的数据分析,不适合低延时的访问
      • 无法对大量的小文件进行处理
      • 不支持并发写入
  • HDFS默认几副本?

    • 默认3副本
  • 一个切片的大小?

    • 1.x 64M
    • 2.x 128M
  • HDFS读取数据的过程?

    • 1.打开文件
    • 2.获取数据块的信息
    • 3.读取请求
    • 4.读取数据(可能在多个节点上读取数据)
    • 5.关闭文件
  • HDFS数据块的大小会造成哪些影响

    • 寻址:根据NameNode去寻找DataNode(时间)
    • 处理:数据传输(时间)
    • 默认的原则是寻址时间为处理时间的1%
    • 处理时间跟什么有关系?跟硬盘的速率有关系,所以数据块的大小,根据是硬盘的速率来决定的
      • 这也是为什么1.x的时候64m,2.x - 128M
    • 数据块过大?
      • 处理时间过长
    • 数据块过小?
      • 大量的时候都花在了寻址上

MapReduce

  • MR的shuffle?
    • 1.输入数据执行Map任务
    • 2.写入缓存
    • 3.溢写
    • 4.文件归并
  • MR的工作流程
    • 1.要处理一个文件
    • 2.将这个文件切片
    • 3.每一片都由一个Map来执行
    • 4.Map执行完之后交给Reduce
    • 5.Reduce处理完之后输入最终结果

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/326205.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号