[spark 面试]Shuffle的性能调优问题

1、Shuffle原理和运行机制回顾  2、Shuffle性能调优 上面的流程中:  性能问题1:Mapper端的Cache:如果Cache设置的大小不恰当,可能产生大量磁盘的访问操作,因为要频繁地往本地磁盘写数据。  性能问题2:Reducer端的Business Logic运行的空间,如果说空间分配不够,业务逻辑运行的时候被迫把数据Spill到磁盘上面。一方面造成了业务逻辑处理的时候需要读写磁
相关文章
相关标签/搜索