1.spark-core中的术语
Master:资源管理的主节点
Cluster Manager:在集群上获取资源的外部服务
Worker Node:资源管理的从节点或者说管理本机资源的进程
Application:基于Spark的用户程序,包含了driver程序和运行在集群上的executor程序
Driver Program:用来连接工作进程的程序
Executor:是在一个worker进程所管理的节点上为某Application启动的一个进程。
Task:被送到某个executor上的工作单元
Job:包含很多Task的并行计算
Stage:一个Jop会拆分为多组任务,每组任务被称为Stage
2.窄依赖和宽依赖
即RDD之间的依赖关系
窄依赖:父RDD和子RDD partition之间的关系是一对一的。不会有shuffule产生。
宽依赖:父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。
3.stage的计算模式
Spark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。
4.Spark-Submit提交参数



