栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

SPARK -SQL 小文件问题

SPARK -SQL 小文件问题

SPARK 小文件问题
  • spark -sql 小文件生成原因
  • 设置参数减少小文件的生成

spark -sql 小文件生成原因

spark -sql 提交任务默认shuffle 数量是 200
如果数据量过小会造成每一个shuffle 输出的文件数据量过小时间长了就会有大量小文件产生

设置参数减少小文件的生成
  1. spark-sql adaptive框架解决小文件问题

打开自适应框架的开关
set spark.sql.adaptive.enabled=true;
设置partition的上下限
set spark.sql.adaptive.minNumPostShufflePartitions=10;
set spark.sql.adaptive.maxNumPostShufflePartitions=2000;
设置单reduce task处理的数据大小
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=134217728;
set spark.sql.adaptive.shuffle.targetPostShuffleRowCount=10000000;

PS : 必须要触发shuffle才可以用。
2. 提交命令指定固定shuffle个数

spark-sql xxxx --conf spark.sql.shuffle.partitions=1;

参考 :

https://blog.csdn.net/qq_14950717/article/details/105303145

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/654441.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号