栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

用mapreduce怎么处理数据倾斜问题?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

用mapreduce怎么处理数据倾斜问题?

解答:

数据倾斜:map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,此称之为数据倾斜。

用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解决方法。

自己实现partition类,用key和value相加取hash值:

方式1:

源代码:

public int getPartition(K key, V value,int numReduceTasks) {return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;  }

修改后

public int getPartition(K key, V value,int numReduceTasks) {return (((key).hashCode()+value.hashCode()) & Integer.MAX_VALUE) % numReduceTasks;}

方式2:

public class HashPartitioner<K, V> extends Partitioner<K, V> {    private int aa= 0;            public int getPartition(K key, V value,    int numReduceTasks) {    return (key.hashCode()+(aa++) & Integer.MAX_VALUE) % numReduceTasks; }

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/363982.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号