实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Presto Hive数据源Split的生成

大数据系统更新时间：2026-05-21 13:50:56 发布时间：1596天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

presto中生成split的基本原理是：

1. presto先扫描所有所有需要访问的hdfs的数据文件，如果hdfs文件比hive.max-split-size(默认64M) 大，则一个文件生成一个split.

其代码实现在于BackgroundHiveSplitLoader::loadSplits中，loadSplits会扫描分区的所有文件，每个文件创建一个InternalHiveSplit，提交到HiveSplitSource中异步生成真正的HiveSplit。

2. 在HiveSplitSource中，如果文件不可切割的话，则无论文件大大小多大都只生成一个split，如果可以切割而且文件大于hive.max-split-size，则对文件进行切割成多个split，每个split最大处理hive.max-split-size大小的数据，其实现代码在于：

public CompletableFuture getNextBatch(ConnectorPartitionHandle partitionHandle, int maxSize)
{
     ....

     if (internalSplit.isSplittable()) {
           splitBytes = min(maxSplitBytes, block.getEnd() - internalSplit.getStart());
     }
     else {
           splitBytes = internalSplit.getEnd() - internalSplit.getStart();
     }
     resultBuilder.add(new HiveSplit())
     internalSplit.increaseStart(splitBytes);
     ....
}

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/696268.html

上一篇 HCIP第二天

下一篇 spring事务

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号