spark小技巧-mapPartitions

与map方法相似,map是对rdd中的每个元素进行操做,而mapPartitions(foreachPartition)则是对rdd中的每一个分区的迭代器进行操做。若是在map过程当中须要频繁建立额外的对象(例如将rdd中的数据经过jdbc写入数据库,map须要为每一个元素建立一个连接而mapPartition为每一个partition建立一个连接),则mapPartitions效率比map高的多
相关文章
相关标签/搜索