《Spark快速大数据分析》拾遗

时间 2020-05-08

原文原文链接

前言上次的阅读留下来几个问题，在学完了scala以后再回来看看。固然也木有太大长进，不过不赶进度心态就好点了，静下心来看看仍是木有很好理解的。web 1.数据分区就是把pair RDD里的数据元素，按照键值，经过某种巧妙（雾）的方法，分开放到工做节点上。分区比较好理解，重点在于为何在对pair RDD进行join()操做的时候，分区会下降网络传输的数据量。好比有RDD1[(1,2),(1,3)

>>阅读原文<<