26.大数据学习之旅——Spark调优&源码解读&SparkSQL入门

Spark调优—上篇 更好的序列化实现 Spark用到序列化的地方 1)Shuffle时需要将对象写入到外部的临时文件。 2)每个Partition中的数据要发送到worker上,spark先把RDD包装成task对象,将task通过 网络发给worker。 3)RDD如果支持内存+硬盘,只要往硬盘中写数据也会涉及序列化。 默认使用的是java的序列化。但java的序列化有两个问题,一个是性能相对
相关文章
相关标签/搜索