Spark初探之SparkContext

1、定义

class SparkContext(config: SparkConf) extends Logging

SparkContext为Spark的main入口点(类似Java中的mian方法)，如把Spark集群当作服务端那Spark Driver就是客户端，SparkContext则是客户端的核心；

如注释所说 SparkContext用于连接Spark集群、创建RDD、累加器（accumlator）、广播变量（broadcast variables）

目前在一个JVM进程中可以创建多个SparkContext，但是只能有一个active级别的。如果你需要创建一个新的SparkContext实例，必须先调用stop方法停掉当前active级别的SparkContext实例。

2、sparkcontxt的主要组成部分

sparkEnv：spark运行环境。Executor是处理任务的执行器，依赖于SparkEnv的环境。Driver中也包含SparkEnv，为了保证Local模式下任务执行。此外，SparkEnv还包含serializerManager、RpcEnv、BlockManager、mapOutputTracker等组件。
LiveListenerBus：SparkContext的事件总线。接受各个使用方的事件，通过异步方式进行匹配后调用SparkListener的不同方法。
SparkUI：间接依赖于计算引擎、调度引擎、存储引擎体系，Job、stage、存储、executor等的监控都会以SparkListener的形式投递到LiveListenerBus，SparkUI从各个SparkListener中读取数据并显示到Web。
SparkStatusTracker：提供job、Stage等的监控信息，是低级API，只能提供一致性机制。
ConsoleProgressBar：利用SparkStatusTracker的API，在控制台展示Stage的进度。因SparkStatusTracker的一致性，显示一般有延时。
DAGScheduler（非常重要）：DAG调度器，负责创建job、提供划分算法划分stage、提交stage等。
TaskScheduler（非常重要）：任务调度器，按照调度算法对集群管理器已经分配给应用程序的资源进行二次调度后分配给任务。TaskScheduler的Task由DAGScheduler创建。
HeartbeatReceiver：心跳接收器，所有Executor都向HeartbeatReceiver发送心跳信息，HeartbeatReceiver接收到以后更新Executor的最后可见时间，然后将信息给TaskScheduler做处理。
ContextCleaner：使用异步方式清理应用作用域中的RDD、ShuffleDependcy和Broadcast。
JobProgressListener：作业进度监听器。
EventLoggingListener（可选）：将事件持久化到存储的监听器，当设置spark.eventLog.enabled为true时才可以使用
ExecutorAllocationManager：Exexcutor动态分配管理器。
ShutdownHokManager：用于关闭钩子函的管理器，在JVM退出时，执行清理工作。

相关组件

名称	说明
SparkConf	Spark配置类，配置已键值对形式存储，封装了一个ConcurrentHashMap类实例settings用于存储Spark的配置信息。
SparkEnv	SparkContext中非常重要的类，它维护着Spark的执行环境，所有的线程都可以通过SparkContext访问到同一个SparkEnv对象。
LiveListenerBus	SparkContext 中的事件总线，可以接收各种使用方的事件，并且异步传递Spark事件监听与SparkListeners监听器的注册。
SparkUI	为Spark监控Web平台提供了Spark环境、任务的整个生命周期的监控。
TaskScheduler	为Spark的任务调度器，Spark通过他提交任务并且请求集群调度任务。因其调度的 Task 由 DAGScheduler 创建，所以 DAGScheduler 是 TaskScheduler 的前置调度。
DAGScheduler	为高级的、基于Stage的调度器，负责创建 Job，将 DAG 中的 RDD 划分到不同的 Stage，并将Stage作为Tasksets提交给底层调度器TaskScheduler执行。
HeartbeatReceiver	心跳接收器，所有 Executor 都会向HeartbeatReceiver 发送心跳，当其接收到 Executor 的心跳信息后，首先更新 Executor 的最后可见时间，然后将此信息交给 TaskScheduler 进一步处理。
ExecutorAllocationManager	Executor 动态分配管理器，根据负载动态的分配与删除Executor，可通过其设置动态分配最小Executor、最大Executor、初始Executor数量等配置。
ContextClearner	上下文清理器，为RDD、shuffle、broadcast状态的异步清理器，清理超出应用范围的RDD、ShuffleDependency、Broadcast对象。
SparkStatusTracker	低级别的状态报告API，只能提供非常脆弱的一致性机制，对Job（作业）、Stage（阶段）的状态进行监控。
HadoopConfiguration	Spark默认使用HDFS来作为分布式文件系统，用于获取Hadoop配置信息。

以上的对象为SparkContext使用到的主要对象，可以看到SparkContext包含了Spark程序用到的几乎所有核心对象，可见SparkContext的重要性；

创建SparkContext时会添加一个钩子到ShutdownHookManager中，用于在Spark程序关闭时对上述对象进行清理，在创建RDD等操作也会判断SparkContext是否已stop；

通常情况下一个Driver只会有一个SparkContext实例，但可通过spark.driver.allowMultipleContexts配置来允许driver中存在多个SparkContext实例。

Spark初探之SparkContext

大数据系统相关栏目本月热门文章