栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark(四)-------

spark(四)-------

1.spark-core中的术语
Master:资源管理的主节点
Cluster Manager:在集群上获取资源的外部服务
Worker Node:资源管理的从节点或者说管理本机资源的进程
Application:基于Spark的用户程序,包含了driver程序和运行在集群上的executor程序
Driver Program:用来连接工作进程的程序
Executor:是在一个worker进程所管理的节点上为某Application启动的一个进程。
Task:被送到某个executor上的工作单元
Job:包含很多Task的并行计算
Stage:一个Jop会拆分为多组任务,每组任务被称为Stage

2.窄依赖和宽依赖
即RDD之间的依赖关系
窄依赖:父RDD和子RDD partition之间的关系是一对一的。不会有shuffule产生。
宽依赖:父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。

3.stage的计算模式
Spark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。

4.Spark-Submit提交参数

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/467466.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号