26.大数据学习之旅——Spark调优&源码解读&SparkSQL入门

时间 2020-12-26

标签大数据 spark 栏目 Spark 繁體版

原文原文链接

Spark调优—上篇更好的序列化实现 Spark用到序列化的地方 1）Shuffle时需要将对象写入到外部的临时文件。 2）每个Partition中的数据要发送到worker上，spark先把RDD包装成task对象，将task通过网络发给worker。 3）RDD如果支持内存+硬盘，只要往硬盘中写数据也会涉及序列化。默认使用的是java的序列化。但java的序列化有两个问题，一个是性能相对

>>阅读原文<<