Hive学习总结-调优篇

仅为调优检索，只列举大致思路，不包含具体调优操作

10.1-10.3 Explain-Fetch-本地模式

执行计划（Explain）查看下面这条语句的执行计划

explain select * from emp;

Fetch 抓取: Hive 中对某些情况的查询可以不必使用MapReduce 计算

例如：SELECt * FROM employees, 在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。

在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走 mapreduce。

本地模式

大多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的。不过，有时 Hive 的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际 job 的执行时间要多的多。对于大多数这种情况，Hive 可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。用户可以通过设置 hive.exec.mode.local.auto 的值为 true，来让 Hive 在适当的时候自动启动这个优化。

10.4 HIVE分桶表_三种join实现

hive 提供了三种join方式，common join; map join; smb join

common join

特点：最常见的join 类型，需要执行shuffle操作，根据join条件对数据进行重新分布

适用场景：两表数量都不大的场景

缺点：shuffle操作需要网络IO/磁盘IO操作，若在数据量较大并且分布不均匀会导致数据倾斜，对任务执行效率产生影响
map join——也称为map side join, 是对common join 的优化；

特点：将小表转换为以join条件为key的hashTable分布式缓存到各个节点，然后map扫描大表数据，每读取一条记录便从hashTable查询相对应的记录输出。

适用场景：小表关联大表情形

特点：由此可见map join 是使用通过空间来换取时间的优化方式，即使用内存消耗来代替shuffle、reduce操作。

小表的定义：set hive.mapjoin.smalltable.filesize=25000000; 认为小于等于这个数值（25M）的表都是小表

开启map join： set hive.auto.convert.join = true; 若满足小表条件自动将common join 转换为map join
SMB join——Sorted Merge Bucket Map Join

特点：分而治之思想转换为多个小的map join 操作，规避shuffle 操作

适用场景：大表关联大表情形；若关联量表的数据量都很大，使用map join将其中一表的数据全部加载到内存中，对内存消耗很大，很容易导致内存溢出而任务失败

分桶：分桶相对于分区来说是更加细粒度的数据组织方式

1）分桶会将一个分区下的数据或者未分区全表数据按照分桶字段求其hash值然后对分桶数量取余决定其所在的桶，那么分区下的数据文件数或者全表文件数就是分桶的个数。

2）分桶会对对分桶字段进行排序，每一个桶里面的数据按照分桶字段进行升序或者降序组织，那么其整体就是一个并归排序操作。

SMB join流程：

1.对关联两表做成以join条件为分桶字段的表，并且按照同样的排序方式组织分桶数据,两表的分桶个数必须成整数倍数关系。

2.在表数据关联的时候，将小表的数据加载到内存中，开启大表桶个数的map任务，并且将小表桶数据加载到与大表对应桶位置对应(相同或者成倍数关系)的map任务的内存中去，然后以map join的方式执行

3.Map join的时候，小表的每一组bucket加载成hashtable，与对应的一个大表bucket做局部join，这样每次只需要加载部分hashtable就可以

**与map join的区别：**1）数据进行过滤，并不是全数加载到内存中；2）数据是有序的，降低扫描次数，提升效率。

参考：

https://blog.csdn.net/Samaritan_H/article/details/79090103?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EOPENSEARCH%7Edefault-5.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EOPENSEARCH%7Edefault-5.no_search_link

https://blog.csdn.net/weixin_36342477/article/details/114503930

Group By存在时某个Key过多导致倾斜——开启Map 端聚合

默认情况下，Map 阶段同一 Key 数据分发给一个 reduce，当一个 key 数据过大时就倾斜了。并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。

Count(Distinct) 去重统计对应的Reduce处理数据量过大

Count(Distinct) 去重统计对应的Reduce处理数据量过大——先 GROUP BY 再 COUNT

数据量小的时候无所谓，数据量大的情况下，由于 COUNT DISTINCT 操作需要用一个Reduce Task 来完成，这一个 Reduce 需要处理的数据量太大，就会导致整个 Job 很难完成，一般 COUNT DISTINCT 使用先 GROUP BY 再 COUNT 的方式替换,但是需要注意 group by 造成的数据倾斜问题.

笛卡尔积消耗对应的Reduce

尽量避免笛卡尔积，join 的时候不加 on 条件，或者无效的 on 条件，Hive 只能使用 1 个reducer 来完成笛卡尔积

行列过滤

列处理：在 SELECT 中，只拿需要的列，如果有分区，尽量使用分区过滤，少用 SELECT*。

行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在 Where 后面，那么就会先全表关联，之后再过滤

分区分桶

详见hive总结第7章

10.5 合理设置Map 及Reduce 数

复杂文件增加Map 数

小文件进行合并

合理设置Reduce 数

10.6 并行执行

Hive 会将一个查询转化成一个或者多个阶段。这样的阶段可以是 MapReduce 阶段、抽样阶段、合并阶段、limit 阶段。或者 Hive 执行过程中可能需要的其他阶段。默认情况下， Hive 一次只会执行一个阶段。不过，某个特定的 job 可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个 job 的执行时间缩短。不过，如果有更多的阶段可以并行执行，那么 job 可能就越快完成。通过设置参数 hive.exec.parallel 值为 true，就可以开启并发执行。不过，在共享集群中，
需要注意下，如果 job 中并行阶段增多，那么集群利用率就会增加。

10.7 严格模式

Hive 可以通过设置防止一些危险操作：
1）分区表不使用分区过滤

将 hive.strict.checks.no.partition.filter 设置为 true 时，对于分区表，除非 where 语句中含有分区字段过滤条件来限制范围，否则不允许执行。换句话说，就是用户不允许扫描所有分区。进行这个限制的原因是，通常分区表都拥有非常大的数据集，而且数据增加迅速。没有进行分区限制的查询可能会消耗令人不可接受的巨大资源来处理这个表。

2）使用 order by 没有 limit 过滤

将 hive.strict.checks.orderby.no.limit 设置为 true 时，对于使用了 order by 语句的查询，要求必须使用 limit 语句。因为 order by 为了执行排序过程会将所有的结果数据分发到同一个 Reducer 中进行处理，强制要求用户增加这个 LIMIT 语句可以防止 Reducer 额外执行很长一段时间。

3）笛卡尔积

将 hive.strict.checks.cartesian.product 设置为 true 时，会限制笛卡尔积的查询。对关系型数据库非常了解的用户可能期望在执行 JOIN 查询的时候不使用 ON 语句而是使用 where 语句，这样关系数据库的执行优化器就可以高效地将 WHERe 语句转化成那个 ON 语句。不幸的是，Hive 并不会执行这种优化，因此，如果表足够大，那么这个查询就会出现不可控的情况。

10.8 JVM重用

详见 hadoop 学习总结中 jvm重用

10.9 压缩

化器就可以高效地将 WHERe 语句转化成那个 ON 语句。不幸的是，Hive 并不会执行这种优化，因此，如果表足够大，那么这个查询就会出现不可控的情况。

Hive学习总结-调优篇

大数据系统相关栏目本月热门文章