PySpark角色分析

一、核心架构图

二、角色分析

在Driver端，通过Py4j实现在Python调用Java的方法，即将用户写得PySpark程序“映射”到JVM中，例如，用户在PySpark中实例化一个Python的SparkContext对象，最终会在JVM中实例化Scala的SparkContext对象
在Executor端，则不需要借助Py4j，因为Executor端运行的Task逻辑是由Driver发过来的，那是序列化后的字节码，虽然里面可能包含有用户定义的Python函数或Lambda表达式，Py4j并不能实现在Java里调用Python的方法，为了能在Executor端运行用户定义的Python函数或Lambda表达式，则需要为每个Task单独起一个Python进程，通过socket通信方式将Python函数或Lambda表达式发给Python进程执行。
master：主节点进程，在整个集群中，最多只有一个Master处于Active状态。在使用spark-shell等交互式运行或者使用官方提供的run-example实例时，Driver运行在Master节点中；若是使用spark-submit工具进行任务的提交或者IDEA等工具开发运行任务时，Driver是运行在本地客户端的
worker：从节点进程，类似于yarn中的NodeManager，在整个集群中，可以有多个Worker（>0）。负责当前WorkerNode上的资源汇报、监督当前节点运行的Executor。并通过心跳机制来保持和Master的存活性连接。Executor受到Worker掌控，一个Worker启动Executor的个数受限于机器中的CPU核数。每个Worker节点存在一个多个CoarseGrainedExecutorBackend进程，每个进程包含一个Executor对象，该对象持有一个线程池，每个线程池执行一个Task

三、核心概念

Application：指的是用户编写的Spark应用程序，包含了含有一个Driver功能的代码和分布在集群中多个节点上运行的Executor
Driver：运行Application的main函数，并创建SparkContext，SparkContext的目的是为了准备Spark应用程序的运行环境
Job：一个Application可以产生多个Job，其中Job由Spark Action触发产生。每个Job包含多个Task组成的并行计算
Stage：每个Job会拆分为多个Task，作为一个TaskSet，成为Stage；Stage的划分和调度是由DAGScheduler负责的。Stage分为Result Stage和Shuffle Map Stage；
Task：Application的运行基本单位，Executor上的工作单元。其调度和管理由TaskScheduler负责
RDD：Spark基本计算单元，是Spark最核心的东西。表示已被分区、被序列化、不可变的、有容错机制的、能呗并行操作的数据集合
DAGScheduler：根据Job构建基于Stage的DAG，划分Stage依据是RDD之间的依赖关系
TaskScheduler：将TaskSet提交给Worker运行，每个Worker运行了什么Task于此处分配。同时还负责监控、汇报任务运行情况等

PySpark角色分析

Python相关栏目本月热门文章