RDD(Resilient Distributed Dataset)

RDD(Resilient Distributed Dataset)

Content #

RDD 表示已被分区、不可变的,并能够被并行操作的数据集合。

  1. 分区的
  2. 不可变的
    • 分区信息不可以被改变
    • 只能转换(Transformation)现有的 RDD
    • 依赖关系(RDD)
  3. 能被并行操作的由于单个 RDD 的分区特性,使得它天然支持并行操作,即不同节点上的数据可以被分别处理,然后产生一个新的 RDD。

From #