spark经典面试题

1、什么是宽依赖,什么是窄依赖,哪些算子是宽依赖,哪些是窄依赖 一、宽依赖:一个分区对应多个分区,这就代表有shuffle过程,父分区数据通过shuffle过程的hash分区器划分子rdd。分布式 例如:groupbykey   reducebykey   sortbykey等操做,shuffle能够理解为数据从原分区打乱重组到新分区函数 二、窄依赖:一个分区对应一个分区,这个过程没有shuffl
相关文章
相关标签/搜索