Spark性能优化之如何使用广播变量以及Kryo序列化

时间 2019-12-04

标签 spark 性能优化如何使用广播变量以及 kryo 序列栏目 Spark 繁體版

原文原文链接

广播变量在Spark Application中，常常会使用到一个共享变量，众所周知的，Spark是一个并行计算框架，对于这个变量，每个executor的task在访问它的时候，都会去拷贝一份副本去使用。以下图所示： java 对于这种默认方式，它会极大的系统的内存，咱们能够假设一个集群中有1024个task，这个共享变量大小假设为1M，那么就会去复制1024份到集群上去，这样就会有1个G的数据在

>>阅读原文<<