Spark处理百亿规模数据优化实战

时间 2019-12-06

标签 spark 处理百亿规模数据优化实战栏目 Spark 繁體版

原文原文链接

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战，并成功将程序的速度提高一倍（涉及到敏感信息本文在2018-07-04号将其删除，阅读上可能显得不完整）下面介绍一些基本的优化手段java 本文于2017-07-16号书写算法 Spark任务优化本节主要从内存调优、高性能算子、数据结构优化、广播大变量和小表调优、动态并行度调优、Spark文件切分策略调优来介绍Spark处理大规模数据的

>>阅读原文<<