spark作两张大表的join操做,mapPartition和重分区算子的使用策略

Spark中作两个大hive表的join操做,先读取过来处理成两个数据量很大的RDD,若是两个RDD直接进行join操做,势必会形成shuffle等致使运行很是缓慢,那么怎么优化呢?方法以下:函数 首先,对每一个大hive表生成RDD进行优化优化 1. 对RDD进行repartition重分区spa 先依据Executor数和内存状况估算出对RDD分为多少个partition比较合适,由于一个pa
相关文章
相关标签/搜索