实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hive数据倾斜

大数据系统更新时间：2026-04-08 05:01:19 发布时间：1526天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

目录

1. 什么是数据倾斜

2. 造成数据倾斜的原因

3. 数据倾斜应对办法

4. 参考资料

1. 什么是数据倾斜数据倾斜，即单个节点任务所处理的数据量远大于同类型任务所处理的数据量，导致该节点成为整个作业的瓶颈，这是分布式系统不可能避免的问题。

2. 造成数据倾斜的原因从本质来说，导致数据倾斜有两种原因：一是任务读取大文件，二是任务需要处理大量相同键的数据。任务需要处理大量相同键的数据，这种情况有以下 4 种表现形式：（1）数据含有大量无意义的数据，例如空值（ NULL ）、空字符串等。（2）含有倾斜数据在进行聚合计算时无法聚合中间结果，大量数据都需要经过 Shuffle 阶段的处理，引起数据倾斜。（3）两表进行 Join ，都含有大量相同的倾斜数据键。（4）数据在计算时做多维数据集合，导致维度膨胀引起的数据倾斜。

3. 数据倾斜应对办法
根据上面描述的造成数据倾斜的原因，有针对性的应对即可。

（1）不可拆分大文件引发的数据倾斜

归档、不支持文件分割的压缩方式、以后有任务要读取压缩文件、单个map读取瓶颈、map读取倾斜
Map读取文件的数据倾斜：当集群的数据量增长到一定规模，有些数据需要归档或者转储，这时候往往会对数据进行压缩；当对文件使用GZIP 压缩等不支持文件分割操作的压缩方式，在日后有作业涉及读取压缩后的文件时，该压缩文件只会被一个任务所读取。如果该压缩文件很大，则处理该文件的Map 需要花费的时间会远多于读取普通文件的Map 时间，该Map任务会成为作业运行的瓶颈。这种情况也就是 Map读取文件的数据倾斜。应对办法：可以采用 bzip2 和 Zip 等支持文件分割的压缩算法（2）无意义的空值数据这些与业务无关的数据引入导致在进行分组聚合或者在执行表连接时发生数据倾斜。对于这类问题引发的数据倾斜，在计算过程中排除含有这类“ 异常 ” 数据即可。（3）两个 Hive 数据表连接时引发的数据倾斜两表进行普通的 repartition join 时，如果表连接的键存在倾斜，那么在 Shuffle阶段必然会引起数据倾斜。遇到这种情况，Hive 的通常做法还是启用两个作业，第一个作业处理没有倾斜的数据，第二个作业将倾斜的数据存到分布式缓存中，分发到各个 Map任务所在节点。在 Map 阶段完成 join 操作，即 MapJoin ，这避免了 Shuffle，从而避免了数据倾斜。

4. 参考资料
本文内摘自《hive性能调优实践》，感谢知识分享

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/720222.html

上一篇「原创」大数据采集的一些面试问题

下一篇 C++设计模式

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号