Spark BroadCast 解析

  前言 在实际使用中对于一些许多rdd须要用到的大的只读数据集变量可使用共享变量的方式来提升性能,例如查内存表,默认状况下会每一个task都保存一份,这样太浪费资源,因此通常会采用共享变量的方式来查表,代码中常用,但还没细致研究过,此次恰好借着阅读Spark RDD API源码的机会来深刻解析一下broadcast。算法 Broadcast代码还涉及到spark底层存储代码BlockManage
相关文章
相关标签/搜索