Spark性能优化之如何使用广播变量以及Kryo序列化

广播变量 在Spark Application中,常常会使用到一个共享变量,众所周知的,Spark是一个并行计算框架,对于这个变量,每个executor的task在访问它的时候,都会去拷贝一份副本去使用。以下图所示: java 对于这种默认方式,它会极大的系统的内存,咱们能够假设一个集群中有1024个task,这个共享变量大小假设为1M,那么就会去复制1024份到集群上去,这样就会有1个G的数据在
相关文章
相关标签/搜索