实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hive 基于常用参数的调优（Tez和MR引擎）

大数据系统更新时间：2026-05-22 02:18:40 发布时间：1661天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

1.说明

Hive的常用计算引擎有MR、Tez和Spark，本篇博客主要是基于MR和Tez的参数调优，由于Hive的任务是在Yarn上提交的，所以Yarn作为一个资源调度器，可用的资源也需要进行配置。

2.Yarn参数个性化配置

配置文件名：yarn-site.xml

参数名	推荐值	参数说明
yarn.nodemanager.resource.cpu-vcores	当前数据节点的可用最大CPU核数*80%	Container可以使用的的CPU数
yarn.scheduler.maximum-allocation-vcores	当前数据节点的可用最大CPU核数*80%	单个任务最大可用的CPU数
yarn.scheduler.minimum-allocation-vcores	1	单个任务最小可用的CPU数
yarn.nodemanager.resource.memory-mb	当前数据节点的物理内存总量的80%	可分配给Container的内存大小
yarn.scheduler.maximum-allocation-mb	当前数据节点的物理内存总量的80%	单个任务最大可用的内存大小
yarn.scheduler.minimum-allocation-mb	1024	单个任务最小可用的内存大小

3.Hive参数个性化配置（MR）

参数名	推荐值	参数说明
hive.execution.engine	mr	选择执行引擎
hive.exec.parallel	true	是否并行执行任务，默认值为false。
hive.exec.compress.intermediate	true	否对hive查询中的数据进行压缩，当map中间数据较多时，可以选择开启压缩，压缩形式推荐Snappy，默认值为false。
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress.SnappyCodec	在开启压缩时，该参数生效，Snappy结合了低CPU开销和好的压缩执行效率，适合中间文件的压缩和解压，默认值为org.apache.hadoop.io.compress.DefaultCodec。
mapreduce.map.memory.mb	6144	Mapper的Container的堆内存大小，根据实际情况设置，为1024的倍数，单位为MB。设置范围大小在3072-20480之间。
mapreduce.map.cpu.vcores	1	每个Mapper的可使用最大的CPU核数，默认值为1。
mapreduce.reduce.memory.mb	6144	Reducer的Container的堆内存大小，根据实际情况设置，为1024的倍数，单位为MB。
mapreduce.reduce.cpu.vcores	1	每个Reducer的可使用最大的CPU核数，默认值为1。
hive.exec.reducers.max	100	允许的最大reduce数量，需要根据reduce的数据量来判断，默认值为1009。
mapred.reduce.tasks	100	指定reduce的个数，默认为-1。

4.Hive参数个性化配置（Tez）

参数名	推荐值	参数说明
hive.execution.engine	tez	选择执行引擎
hive.tez.input.format	org.apache.hadoop.hive.ql.io.CombineHiveInputFormat	如果小文件过多，导致map数很多时，可以使用org.apache.hadoop.hive.ql.io.CombineHiveInputFormat来合并小文件，减少过多的map任务数，默认值为org.apache.hadoop.hive.ql.io.HiveInputFormat。
hive.tez.container.size	10240	Tez的Container的堆内存大小，根据实际情况设置，为1024的倍数，单位为MB。设置范围大小在3072-20480之间。
tez.runtime.io.sort.mb	128	Hive输出排序需要的内存大小，不超过2G，单位为MB。
tez.am.container.reuse.enabled	true	Tez的AM容器设置为可重用。
tez.runtime.shuffle.fetch.buffer.percent	0.90	运行期间，用于shuffle的buffer大小比例。
tez.runtime.unordered.output.buffer.size-mb	1024	如果不直接写入磁盘,使用的缓冲区大小。建议设置为10% * hive.tez.container.size。
hive.exec.reducers.max	100	允许的最大reduce数量，需要根据reduce的数据量来判断，默认值为1009。
mapred.reduce.tasks	100	指定reduce的个数，默认为-1。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/389415.html

上一篇快速解决找不到Tomcat jre问题

下一篇 Flink1.13优势一览

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号