Spark BroadCast 解析

时间 2020-05-15

原文原文链接

前言在实际使用中对于一些许多rdd须要用到的大的只读数据集变量可使用共享变量的方式来提升性能，例如查内存表，默认状况下会每一个task都保存一份，这样太浪费资源，因此通常会采用共享变量的方式来查表，代码中常用，但还没细致研究过，此次恰好借着阅读Spark RDD API源码的机会来深刻解析一下broadcast。算法 Broadcast代码还涉及到spark底层存储代码BlockManage