《Spark快速大数据分析》拾遗

前言 上次的阅读留下来几个问题,在学完了scala以后再回来看看。固然也木有太大长进,不过不赶进度心态就好点了,静下心来看看仍是木有很好理解的。web 1.数据分区 就是把pair RDD里的数据元素,按照键值,经过某种巧妙(雾)的方法,分开放到工做节点上。分区比较好理解,重点在于为何在对pair RDD进行join()操做的时候,分区会下降网络传输的数据量。好比有RDD1[(1,2),(1,3)
相关文章
相关标签/搜索