栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

关于hadoop 的shuffle 过程详解(面试题常考)

关于hadoop 的shuffle 过程详解(面试题常考)

MapReduce的shuffle流程
  • Shuffle 机制


Shuffle 机制

1)Map 方法之后Reduce 方法之前这段处理过程叫Shuffle

2)Map 方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小100m,环形缓冲区达到80%时,进行溢写;溢写前对数据进行排序,排序按照对key 的索引进行字典顺序排序,排序的手段快排;溢写产生大量溢写文件,需要对溢写文件进行归并排序;对溢写的文件也可以进行Combiner 操作,前提是汇总操作,求平均值不行。最后将文件按照分区存储到磁盘,等待Reduce 端拉取。

3)每个Reduce 拉取Map 端对应分区的数据。拉取数据后先存储到内存中,内存不够了,再存储到磁盘。拉取完所有数据后,采用归并排序将内存和磁盘中的数据都进行排序。在进入Reduce 方法前,可以对数据进行分组操作。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/326432.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号