栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

基于spark+hudi测试腾讯cos&hdfs读写小文件性能

基于spark+hudi测试腾讯cos&hdfs读写小文件性能

背景:

        使用spark读写hudi on cos时发现读写速度非常慢,但因业务场景需要使用二级分区,必定会产生很多小文件,于是测试spark读取cos与hdfs上小文件的性能

环境:

spark 3.1.2

hudi 0.9

hadoop 3.2.2

腾讯云 cos

结果:

资源大小数据量目录数耗时
5 * 8c * 16g48823737二级分区,路径20054个cos :读取 33min ; 写入 19min ;
hdfs :读取 23min ; 写入 10min ;
4 * 8c * 16g48823737二级分区,路径20054个cos:读取 41min ; 写入 20+min ;
hdfs:读取 21min ; 写入 17min ;
10 * 4c * 8g48823737一级分区,路径206个cos:读取 < 1min ; 写入 3min ;
hdfs:读取 < 1min ; 写入 1.5min ;

结论:

读取大量小文件时,hdfs的性能比cos好一点,但远远低于读取同数据量的大文件;

所以,在分区内文件较小时,尽量减少分区数并合并文件,可以大大提高性能

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/583938.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号