栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark-sql多级分区 小文件合并

spark-sql多级分区 小文件合并

spark-sql表运行缓慢,查看后发现上游数据小文件数多,

单个文件6.8M或15M,均在20M以内,每个分区小文件个数达几千个,运行起来非常缓慢;

网上很多hive sql的优化,

常见hive sql优化合并小文件(spark-sql客户端也可以):

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapreduce.input.fileinputformat.split.maxsize=2073741824;
set mapreduce.input.fileinputformat.split.minsize=524288;
set mapreduce.input.fileinputformat.split.minsize.per.node=536870912;
set mapreduce.input.fileinputformat.split.minsize.per.rack=536870912;

insert overwrite table a

select * from b;

但在python脚本中spark-sql 多级分区中并不生效(在客户端可以),找了些文档,运行后repartition了,如下:

insert overwrite table credit_data.real_time_event_update_to_redis2 
select  

*

from a

union all

select 

*

from b

参考文档:

​​​​​​​在 Spark SQL 使用 REPARTITION Hint 来减少小文件输出 — utf7

​​​​​​​Hints - Spark 3.0.1 documentation

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/744887.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号