论宽依赖、窄依赖与shuffle

概念上来讲网络     Shuffle的含义就是洗牌,将数据打散,父RDD一个分区中的数据若是给了子RDD的多个分区(只要存在这种可能),就是shuffle。Shuffle会有网络传输数据,可是有网络传输,并不意味着就是shuffle。code 窄依赖:没有发生shuffleblog 宽依赖:存在shufflehash     也许你们看了上面的说法只是有个初步的印象,下面我将以join为例进行讲
相关文章
相关标签/搜索