- 1.spark可以将数据缓存在内存中进行计算(cache)
- 2.spark是粗粒度资源调度,MR是细粒度资源调度。
粗粒度资源调度:一次性申请所有的资源
细粒度资源调度:每个Task执行时才会申请资源
- 3.DAG有向无环图
spark两个shuffle的中间结果不需要落地
MR两个shuffle的中间结果需要落地到HDFS,第二个shuffle的map端要重新读取HDFS上面的文件。

粗粒度资源调度:一次性申请所有的资源
细粒度资源调度:每个Task执行时才会申请资源
spark两个shuffle的中间结果不需要落地
MR两个shuffle的中间结果需要落地到HDFS,第二个shuffle的map端要重新读取HDFS上面的文件。