EMR Spark Runtime Filter性能优化

时间 2019-12-08

标签 emr spark runtime filter 性能优化栏目 Spark 繁體版

原文原文链接

背景 Join是一个很是耗费资源耗费时间的操做，特别是数据量很大的状况下。通常流程上会涉及底层表的扫描/shuffle/Join等过程, 若是咱们可以尽量的在靠近源头上减小参与计算的数据，一方面能够提升查询性能，另外一方面也能够减小资源的消耗(网络/IO/CPU等)，在一样的资源的状况下能够支撑更多的查询。网络目前在SparkSQL中有Filter下推优化，包括两个维度:性能生成Filter

>>阅读原文<<