栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark阶段和任务小结

spark阶段和任务小结

spark一般有以下几种执行模式,standalone执行模式,通过资源管理器管理分片资源的执行模式(常用的有spark集群管理器,mesco,yarn资源管理器),当执行一个spark的作业时一般都会把任务分成几个shuffle阶段,每个阶段分成几个任务的形式。
stage阶段的划分一般是宽转换(shuffle)操作,例如group by等操作,任务阶段一般是窄变换操作,例如map,filter等操作,这种窄转换操作spark一般会在一个内存操作中直接完成多个转换来提高性能.

yarn资源管理器在执行flink作业和spark作业时,原理是类似的:
1.对于flink来说: yarn的rm会分片一个application master节点总览job的各项工作,包括分配任务和汇总作业进度,分片作业之后application master会向rm申请资源来启动slave进程执行具体的任务.
2.对于spark来说:yarn的rm会分片一个驱动器节点进程总览job的各项工作,包括分配任务和汇总作业进度,分片作业之后驱动器进程会像rm申请资源来启动executor执行器进程执行具体的任务

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/602459.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号