1 worker 获得RDD
1.1 RDD.interator 返回 RDD 数据迭代器 def iterator(split: Partition, context: TaskContext): Iterator[T] 1.2 blockManager 获得RDD分区数据 SparkEnv.get.blockManager.getOrElseUpdate, 根据blockId 优先从本地获取, 再从remote获取,再 doPutIterator (replicating)blockTransferService.uploadBlockSync备份多份数据集。 1.3 BlockTransferService 从remote executor 获取, 再经过 bufferTransformer 转换为RDD 的数据迭代器
BlockManagerMaster: 通知rpc driver 块操作
BlockManagerMasterEndpoint: block 管理master
BlcokRpcServer: block 的work node
BlcokTransferService,: block 的client



