spark2原理分析-RDD的shuffle简介

概述 本文介绍RDD的Shuffle原理,并分析shuffle过程的实现。 RDD Shuffle简介 spark的某些操作会触发被称为shuffle的事件。shuffle是Spark重新分配数据的机制,它可以对数据进行分组,该操作可以跨不同分区。该操作通常会在不同的执行器(executor)和主机之间复制数据,这使shuffle成为复杂且非常消耗资源的操作。 Shuffle背景 为了理解shuf
相关文章
相关标签/搜索