RDD(Resilient Distributed Dataset) November 8, 2023 Content # RDD 表示已被分区、不可变的,并能够被并行操作的数据集合。 分区的 不可变的 分区信息不可以被改变 只能转换(Transformation)现有的 RDD 依赖关系(RDD) 能被并行操作的由于单个 RDD 的分区特性,使得它天然支持并行操作,即不同节点上的数据可以被分别处理,然后产生一个新的 RDD。 From # Links #