EMR Spark Runtime Filter性能优化

背景 Join是一个很是耗费资源耗费时间的操做,特别是数据量很大的状况下。通常流程上会涉及底层表的扫描/shuffle/Join等过程, 若是咱们可以尽量的在靠近源头上减小参与计算的数据,一方面能够提升查询性能,另外一方面也能够减小资源的消耗(网络/IO/CPU等),在一样的资源的状况下能够支撑更多的查询。网络 目前在SparkSQL中有Filter下推优化,包括两个维度:性能 生成Filter
相关文章
相关标签/搜索