Content #
存储级别(Storage Level)是一个枚举类型,用来记录 RDD 持久化时的存储级别,常用的有以下几个:
- MEMORY_ONLY 只缓存在内存中,如果内存空间不够则不缓存多出来的部分。这是 RDD 存储级别的默认值。
- MEMORY_AND_DISK 缓存在内存中,如果空间不够则缓存在硬盘中。
- DISK_ONLY 只缓存在硬盘中。
- MEMORY_ONLY_2 和 MEMORY_AND_DISK_2 等与上面的级别功能相同,只不过每个分区在集群中两个节点上建立副本。
我们可以随时把计算好的 RDD 缓存在内存中,以便下次计算时使用,这大幅度减小了硬盘读写的开销。