RDD的结构

RDD的结构

October 14, 2023

Content #

SparkContext 所有 Spark 功能的入口，它代表了与 Spark 节点的连接，可以用来创建 RDD 对象以及在节点中的广播变量等。一个线程只有一个 SparkContext。
SparkConf 一些参数配置信息。
Partitioner 决定了 RDD 的分区方式，目前有两种主流的分区方式：Hash partitioner 和 Range partitioner。
Dependencies
Checkpoint(RDD)
存储级别（Storage Level）RDD

迭代函数（Iterator）和计算函数（Compute）是用来表示 RDD 怎样通过父 RDD 计算得到的。

迭代函数会首先判断缓存中是否有想要计算的 RDD，如果有就直接读取，如果没有，就查找想要计算的 RDD 是否被检查点处理过。如果有，就直接读取，如果没有，就调用计算函数向上递归，查找父 RDD 进行计算。

Viewpoints #

From #

14 | 弹性分布式数据集：Spark大厦的地基（下）

Links #