Spark SQL在100TB上的自适应执行实践

时间 2019-12-05

原文原文链接

Spark SQL是Apache Spark最普遍使用的一个组件，它提供了很是友好的接口来分布式处理结构化数据，在不少应用领域都有成功的生产实践，可是在超大规模集群和数据集上，Spark SQL仍然遇到很多易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上，改进并实现了自适应执行引擎。本文首先讨论Spark SQL在大规模数据集

>>阅读原文<<