Shuffle(Spark)

November 2, 2023

Content #

在分布式计算场景中，Shuffle 指的是集群范围内跨节点、跨进程的数据分发。

Shuffle 的计算会消耗所有类型的硬件资源。具体来说，Shuffle 中的哈希与排序操作会大量消耗 CPU，而 Shuffle Write 生成中间文件的过程，会消耗宝贵的内存资源与磁盘 I/O，最后，Shuffle Read 阶段的数据拉取会引入大量的网络 I/O。Shuffle 是资源密集型计算。

Shuffle 中间文件包含两类文件，一个是记录（Key，Value）键值对的 data 文件，另一个是记录键值对所属 Reduce Task 的 index 文件。计算图 DAG 中的 Map 阶段与 Reduce 阶段，正是通过中间文件来完成数据的交换。

Shuffle Write 过程中生成中间文件，分为 4 个步骤：

对于数据分区中的数据记录，逐一计算其目标分区，然后填充内存数据结构；
当数据结构填满后，如果分区中还有未处理的数据记录，就对结构中的数据记录按（目标分区 ID，Key）排序，将所有数据溢出到临时文件，同时清空数据结构；
重复前 2 个步骤，直到分区中所有的数据记录都被处理为止；
对所有临时文件和内存数据结构中剩余的数据记录做归并排序，生成数据文件和索引文件。

最后，在 Reduce 阶段，Reduce Task 通过 index 文件来“定位”属于自己的数据内容，并通过网络从不同节点的 data 文件中下载属于自己的数据记录。

Viewpoints #

From #

06 | Shuffle管理：为什么Shuffle是性能瓶颈？

Shuffle(Spark)

Content #

Viewpoints #

From #

Links #