栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

presto中split计算worker的分配调度机制分析

presto中split计算worker的分配调度机制分析

  1. presto的split

        在presto中,coordinator会将state切分成多个task提交到各个worker上并行执行。每个task的输入数据是一个或者多个split,split是表的表的一部分数据,比如Hive表是hdfs上边的一个文件。

        因为worker读取split数据需要读取hdfs文件,因为如果split能恰好分配到数据所在的worker节点进行读取和计算,能节省很多的网络传输消耗,有利于加速查询性能。

        presto中提供了两者的split分配调度方式供选择,一个是SimpleNodeSelector,另一个是基于网路拓扑的TopologyAwareNodeSelector,默认的调度方式为SimpleNodeSelector。

        另外presto也提供了两个优化项开关,分别是node-scheduler.optimized-local-scheduling和hive.force-local-scheduling。前者打开时候,presto尽可能地选择和split数据相同节点的,并且任务轻的worker进行调取,后者打开时候,presto会强制调取到和split数据相同节点的worker上执行,否则会报错。

       本文主要对SimpleNodeSelector和TopologyAwareNodeSelector的调度机制进行分析。

2.  SimpleNodeSelector的调度机制

       SimpleNodeSelector的调度机制只要在SimpleNodeSelector::computeAssignments中实现,其实现的逻辑如下:

3. TopologyAwareNodeSelector的调度机制

       TopologyAwareNodeSelector的调取机制主要在TopologyAwareNodeSelector::computeAssignments实现,其实现的逻辑主要是:

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/654418.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号