Spark之序列化在生产中的应用

 序列化在分布式应用的性能中扮演着重要的角色。格式化对象缓慢,或者消耗大量的字节格式化,会大大降低计算性能。在生产中,我们通常会创建大量的自定义实体对象,这些对象在网络传输时需要序列化,而一种好的序列化方式可以让数据有更好的压缩比,从而提升网络传输速率,提高spark作业的运行速度。通常这是在spark应用中第一件需要优化的事情。Spark的目标是在便利与性能中取得平衡,所以提供2种序列化的选择。
相关文章
相关标签/搜索