广播变量
应用场景:在提交做业后,task在执行的过程当中,
有一个或多个值须要在计算的过程当中屡次从Driver端拿取时,此时会必然会发生大量的网络IO,
这时,最好用广播变量的方式,将Driver端的变量的值事先广播到每个Worker端,
之后再计算过程当中只须要从本地拿取该值便可,避免网络IO,提升计算效率。
广播变量在广播的时候,将Driver端的变量广播到每个每个Worker端,一个Worker端会收到一份仅一份该变量的值
注意:广播的值必须是一个确切的值,不能广播RDD(由于RDD是一个数据的描述,没有拿到确切的值),
若是想要广播RDD对应的值,须要将该RDD对应的数据获取到Driver端而后再进行广播。
广播的数据是不可改变的。
广播变量的数据不可太大,若是太大,会在Executor占用大量的缓存,相对于计算的时候的缓存就少不少。缓存