大数据面试与架构调优 RDD On Spark篇

(map 、 mappartition)(transformation) 、(foreach、foreachprtition )(action类型算子) 1: map 是作用到RDD每个元素都遍历下,如果是持久化数据需要创建连接,就会创建很多连接。 2:mappartition 是作用到每个分区遍历一次,相对map更加合理,但是有可能单个partition过大 会导致资源不被释放,这个时候莫慌指定
相关文章
相关标签/搜索