什么是RDD ?
RDD是一个弹性和复原的分步式数据集。
可以解决数据容错时的高效性,以及划分任务起到的重要作用。
RDD 是混合型的编程模型, 可以支持迭代计算, 关系查询, MapReduce, 流计算
RDD 不可变,可分区。是只读的
RDD 之间有依赖关系, 根据执行操作的操作符的不同, 依赖关系可以分为宽依赖和窄依赖
就是在大量记录上执行的单个文件操作,将创建的RDD的一系列的血缘记录下来,以便恢复丢失的数据,相邻两个RDD之间的关系称为依赖关系,新的RDD依赖旧的RDD,多个连续的RDD 相互依赖,称之为血缘关系。



