Spark本身并不存储数据,这里所说的存储系统是指计算过程中,管理内存中数据(如读到内存的源数据、缓存的RDD数据、广播数据)、Shuffle文件数据的功能模块。如果没有存储管理系统,计算是无法完成的。
存储系统的主要由以下组件构成:
- BlockManagerMaster
- BlockManager
- MemoryStore
- DiskStore
- DiskStoreManager
- BlockInfoManager
- BlockManagerMasterEndpoint
- BlockManagerSlaveEndpoint



