spark 大型项目实战(三十): --性能调优之在实际项目中使用Kryo序列化

时间 2021-07-14

标签 spark 栏目 Spark 繁體版

原文原文链接

在进行stage间的task的shuffle操作时，节点与节点之间的task会互相大量通过网络拉取和传输文件，此时，这些数据既然通过网络传输，也是可能要序列化的，就会使用Kryo 还可以进一步优化，优化这个序列化格式默认情况下，Spark内部是使用Java的序列化机制，ObjectOutputStream / ObjectInputStream，对象输入输出流机制，来进行序列化这种默认序列化机

>>阅读原文<<