spark作两张大表的join操做，mapPartition和重分区算子的使用策略

时间 2020-01-13

标签 spark 两张 join mappartition 分区算子使用策略栏目 Spark 繁體版

原文原文链接

Spark中作两个大hive表的join操做，先读取过来处理成两个数据量很大的RDD，若是两个RDD直接进行join操做，势必会形成shuffle等致使运行很是缓慢，那么怎么优化呢？方法以下：函数首先，对每一个大hive表生成RDD进行优化优化 1. 对RDD进行repartition重分区spa 先依据Executor数和内存状况估算出对RDD分为多少个partition比较合适，由于一个pa

>>阅读原文<<