56、Spark性能优化之广播共享数据

广播共享数据原理.png 广播共享数据 如果你的算子函数中,使用到了特别大的数据,那么,这个时候,推荐将该数据进行广播。这样的话,就不至于将一个大数据拷贝到每一个task上去。而是给每个节点拷贝一份,然后节点上的task共享该数据。 这样的话,就可以减少大数据在节点上的内存消耗。并且可以减少数据到节点的网络传输消耗。 比如 val table = new Array[String](1000000
相关文章
相关标签/搜索