Spark技术内幕: 如何解决Shuffle Write必定要落盘的问题?

在Spark 0.6和0.7时,Shuffle的结果都须要先存储到内存中(有可能要写入磁盘),所以对于大数据量的状况下,发生GC和OOM的几率很是大。所以在Spark 0.8的时候,Shuffle的每一个record都会直接写入磁盘,而且为下游的每一个Task都生成一个单独的文件。这样解决了Shuffle解决都须要存入内存的问题,可是又引入了另一个问题:生成的小文件过多,尤为在每一个文件的数据量不
相关文章
相关标签/搜索