栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据之-Hadoop3.x

大数据之-Hadoop3.x

1.这个shuffle机制,是在map方法和reduce方法之间的一种机制

shuffle是在map方法之后,reduce方法之前,用来处理数据的过程.

 

可以看到我们再来回想一下,map方法执行以后,会对数据进行,整理,然后写入环形缓冲区,会把元数据,索引写入到环形缓冲区左侧,

把真正的数据写入到环形缓冲区,右侧,然后当写入的数据,达到环形缓冲区的,百分之80的时候,就可以溢写,同时进行反向逆写,这样好留出,

一些空闲时间,这样的话,不至于,等到环形缓冲区,被写满了以后,再去溢写,这样要想再写入数据就只能等待,溢写完毕了.

溢写之前,会先把数据分别写入到对应的分区中去,因为记录的时候,元数据中记录了,这块数据是属于哪个分区的了,上一节有详细说明,然后

就可以再对数据进行排序,这里用的是快速排序,是对索引,进行字典顺序排序.

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/670988.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号