栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hive 中分区是否越多越好?

Hive 中分区是否越多越好?

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文
  1. hive 如果有过多的分区,由于底层是存储在 HDFS 上,HDFS 上只用于存储大文件而非小文件,因为过多的分区会增加 NameNode 的负担。

可以参考我的这篇博客来理解——Block块是不是设置的越大越好?Block块是不是设置的越小越好?

  1. hive 会转化为 MapReduce, MapReduce 会转化为多个 task。过多小文件的话,每个文件一个 task,每个 task ー个 JVM 实例,JVM 的开启与销毀会降低系统效率。

注意: 合理的分区不应该有过多的分区和文件目录,并且每个目录下的文件应该足够大

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/439251.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号