栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

分布式计算框架

分布式计算框架

分布式计算就是为了把多个计算逻辑能够放到多台机器上执行,执行的逻辑一般使用java或者python等,还牵扯到数据如何分片。

计算 序列化

要将计算逻辑放到多台机器,首先需要的就是将计算逻辑序列化,在网络上传输到多台机器,然后在多台机器上面反序列化,进行执行。

资源管理

对于计算资源需要进行管理,每台机器启动多少进程,一般按照机器的处理器内核进行分配,即有几个内核就启动几个进程。

DAG

每一个完整的计算逻辑被切分成很多任务,这些任务是每个计算节点执行的最小单位,也是调度的最小单位。根据DAG可以清楚的了解每个任务之间的依赖关系。

数据 数据分片

数据分片跟计算的分布紧密相连,一般尽可能的使计算和分片的数据在同一个节点。也有使用统一存储的方式,如hadoop,则没有这个要求。可以简单的理解为一个数据分片就是一个小文件。

数据shuffle

分布式计算分为两类操作,一类是map;一类是aggregate/join。map操作是一个转化操作,只需要在本地、本分片的数据进行操作就可以。而聚合/合并类的操作需要使用别的计算节点的数据,这个时候就需要shuffle操作。本质上说shuffle操作就是把分区数据合并到一起,然后再从新分区,新的分区的依据就是聚合/合并操作所需要操作的key。有两个最为简单的实现:一是将所有数据都统一存放到一个中心的地点,进行重新分片;另一个方法是数据还保留到本地,只把数据的元数据放到一起进行重新分片,需要计算是,节点根据元数据找到相应的原始数据。

驱动程序

进行计算资源的规划以及数据分片的规划,把计算逻辑序列化,发送到需要进行计算的节点。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/751228.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号