Spark学习总结

1、spark自定义类在Driver端和Executor的传输问题 在一个map算子中 new class。每来一条数据将新建一个对象,每个对象都要进行序列化,将大量消耗内存和网络带宽 在Driver端new class发送到Executor。对象将会被发送到每一个task上,若是每一个Executor有多个task,将占用过多内存和网络带宽(补充:能够在map端实例化对象,只实例化一次。就会减小
相关文章
相关标签/搜索