spark 大型项目实战(三十): --性能调优之在实际项目中使用Kryo序列化

在进行stage间的task的shuffle操作时,节点与节点之间的task会互相大量通过网络拉取和传输文件,此时,这些数据既然通过网络传输,也是可能要序列化的,就会使用Kryo 还可以进一步优化,优化这个序列化格式 默认情况下,Spark内部是使用Java的序列化机制,ObjectOutputStream / ObjectInputStream,对象输入输出流机制,来进行序列化 这种默认序列化机
相关文章
相关标签/搜索