Spark SQL在100TB上的自适应执行实践

Spark SQL是Apache Spark最普遍使用的一个组件,它提供了很是友好的接口来分布式处理结构化数据,在不少应用领域都有成功的生产实践,可是在超大规模集群和数据集上,Spark SQL仍然遇到很多易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上,改进并实现了自适应执行引擎。本文首先讨论Spark SQL在大规模数据集
相关文章
相关标签/搜索