本文章转自:乐字节前端
文章主要讲解:Java经常使用序列化框架java
获取更多前端相关资料能够点击连接加入群聊【Java技术交流群】:933-87-3310 暗号:166网络
一 背景介绍序列化与反序列化是咱们平常数据持久化和网络传输中常用的技术,可是目前各类序列化框架让人眼花缭乱,不清楚什么场景到底采用哪一种序列化框架。本文会将业界开源的序列化框架进行对比测试,分别从通用性、易用性、可扩展性、性能和数据类型与Java语法支持五方面给出对比测试。数据结构
下面分别对JDK Serializable、FST、Kryo、Protobuf、Thrift、Hession和Avro进行对比测试。框架
二 序列化框架 1 JDK SerializableJDK Serializable是Java自带的序列化框架,咱们只须要实现java.io.Serializable或java.io.Externalizable接口,就可使用Java自带的序列化机制。实现序列化接口只是表示该类可以被序列化/反序列化,咱们还须要借助I/O操做的ObjectInputStream和ObjectOutputStream对对象进行序列化和反序列化。ide
通用性函数
因为是Java内置序列化框架,因此自己是不支持跨语言序列化与反序列化。oop
易用性性能
做为Java内置序列化框架,无序引用任何外部依赖便可完成序列化任务。可是JDK Serializable在使用上相比开源框架难用许多,能够看到上面的编解码使用很是生硬,须要借助ByteArrayOutputStream和ByteArrayInputStream才能够完整字节的转换。测试
可扩展性
JDK Serializable中经过serialVersionUID控制序列化类的版本,若是序列化与反序列化版本不一致,则会抛出java.io.InvalidClassException异常信息,提示序列化与反序列化SUID不一致。
性能
JDK Serializable是Java自带的序列化框架,可是在性能上其实一点不像亲生的。下面测试用例是咱们贯穿全文的一个测试实体。 咱们对该测试用例进行1000万次序列化,而后计算时间总和:
一样咱们以后会同其它序列化框架进行对比。
数据类型和语法结构支持性
因为JDK Serializable是Java语法原生序列化框架,因此基本都可以支持Java数据类型和语法。
WeakHashMap没有实现Serializable接口。
2 FST序列化框架
FST(fast-serialization)是彻底兼容JDK序列化协议的Java序列化框架,它在序列化速度上能达到JDK的10倍,序列化结果只有JDK的1/3。目前FST的版本为2.56,在2.17版本以后提供了对Android的支持。
通用性
FST一样是针对Java而开发的序列化框架,因此也不存在跨语言特性。
易用性
在易用性上,FST能够说可以甩JDK Serializable几条街,语法极其简洁,FSTConfiguration封装了大部分方法。
可扩展性
FST经过@Version注解可以支持新增字段与旧的数据流兼容。对于新增的字段都须要经过@Version注解标识,没有版本注释意味着版本为0。
注意:
综合来看,FST在扩展性上面虽然支持,可是用起来仍是比较繁琐的。
性能
使用FST序列化上面的测试用例,序列化后大小为:172,相比JDK序列化的432 ,将近减小了1/3。下面咱们再看序列化与反序列化的时间开销。
数据类型和语法结构支持性
FST是基于JDK序列化框架而进行开发的,因此在数据类型和语法上和Java支持性一致。
3 Kryo序列化框架
Kryo一个快速有效的Java二进制序列化框架,它依赖底层ASM库用于字节码生成,所以有比较好的运行速度。Kryo的目标就是提供一个序列化速度快、结果体积小、API简单易用的序列化框架。Kryo支持自动深/浅拷贝,它是直接经过对象->对象的深度拷贝,而不是对象->字节->对象的过程。
通用性
首先Kryo官网说本身是一款Java二进制序列化框架,其次在网上搜了一遍没有看到Kryo的跨语言使用,只是一些文章说起了跨语言使用很是复杂,可是没有找到其它语言的相关实现。
易用性
在使用方式上Kryo提供的API也是很是简洁易用,Input和Output封装了你几乎可以想到的全部流操做。Kryo提供了丰富的灵活配置,好比自定义序列化器、设置默认序列化器等等,这些配置使用起来仍是比较费劲的。
可扩展性
Kryo默认序列化器FiledSerializer是不支持字段扩展的,若是想要使用扩展序列化器则须要配置其它默认序列化器。
性能
使用Kryo测试上面的测试用例,Kryo序列化后的字节大小为172 ,和FST未经优化的大小一致。时间开销以下:
咱们一样关闭循环引用配置和预注册序列化类,序列化后的字节大小为120,由于这时候类序列化的标识是使用的数字,而不是类全名。使用的是时间开销以下:
数据类型和语法结构支持性
Kryo对于序列化类的基本要求就是须要含有无参构造函数,由于反序列化过程当中须要使用无参构造函数建立对象。
4 Protocol buffer
Protocol buffer是一种语言中立、平台无关、可扩展的序列化框架。Protocol buffer相较于前面几种序列化框架而言,它是须要预先定义Schema的。
通用性
protobuf设计之初的目标就是可以设计一款与语言无关的序列化框架,它目前支持了Java、Python、C++、Go、C#等,而且不少其它语言都提供了第三方包。因此在通用性上,protobuf是很是给力的。
易用性
protobuf须要使用IDL来定义Schema描述文件,定义完描述文件后,咱们能够直接使用protoc来直接生成序列化与反序列化代码。因此,在使用上只须要简单编写描述文件,就可使用protobuf了。
可扩展性
可扩展性一样是protobuf设计之初的目标之一,咱们能够很是轻松的在.proto文件进行修改。 新增字段:对于新增字段,咱们必定要保证新增字段要有对应的默认值,这样才可以与旧代码交互。相应的新协议生成的消息,能够被旧协议解析。 删除字段:删除字段须要注意的是,对应的字段、标签不可以在后续更新中使用。为了不错误,咱们能够经过reserved规避带哦。
protobuf在数据兼容性上也很是友好,int3二、unit3二、int6四、unit6四、bool是彻底兼容的,因此咱们能够根据须要修改其类型。 经过上面来看,protobuf在扩展性上作了不少,可以很友好的支持协议扩展。
性能
咱们一样使用上面的实例来进行性能测试,使用protobuf序列化后的字节大小为 192,下面是对应的时间开销。
能够看出protobuf的反序列化性能要比FST、Kryo差一些。
数据类型和语法结构支持
Protobuf使用IDL定义Schema因此不支持定义Java方法,下面序列化变量的测试:
注:List、Set、Queue经过protobuf repeated定义测试的。只要实现Iterable接口的类均可以使用repeated列表。
5 Thrift序列化框架Thrift是由Facebook实现的一种高效的、支持多种语言的远程服务调用框架,即RPC(Remote Procedure Call)。后来Facebook将Thrift开源到Apache。能够看到Thrift是一个RPC框架,可是因为Thrift提供了多语言之间的RPC服务,因此不少时候被用于序列化中。
使用Thrift实现序列化主要分为三步,建立thrift IDL文件、编译生成Java代码、使用TSerializer和TDeserializer进行序列化和反序列化。
通用性
Thrift和protobuf相似,都须要使用IDL定义描述文件,这是目前实现跨语言序列化/RPC的一种有效方式。Thrift目前支持 C++、Java、Python、PHP、Ruby、 Erlang、Perl、Haskell、C#、Cocoa、JavaScript、Node.js、Smalltalk、OCaml、Delphi等语言,因此能够看到Thrift具备很强的通用性。
易用性
Thrift在易用性上和protobuf相似,都须要通过三步:使用IDL编写thrift文件、编译生成Java代码和调用序列化与反序列化方法。protobuf在生成类中已经内置了序列化与反序列化方法,而Thrift须要单独调用内置序列化器来进行编解码。
可扩展性
Thrift支持字段扩展,在扩展字段过程当中须要注意如下问题:
性能
上面的测试用例,使用Thrift序列化后的字节大小为:257,下面是对应的序列化时间与反序列化时间开销:
Thrift在序列化和反序列化的时间开销总和上和protobuf差很少,protobuf在序列化时间上更占优点,而Thrift在反序列化上有本身的优点。
数据类型和语法结构支持
数据类型支持:因为Thrift使用IDL来定义序列化类,因此可以支持的数据类型就是Thrift数据类型。Thrift所可以支持的Java数据类型:
Thrift一样不支持定义Java方法。
6 Hessian序列化框架Hessian是caucho公司开发的轻量级RPC(Remote Procedure Call)框架,它使用HTTP协议传输,使用Hessian二进制序列化。 Hessian因为其支持跨语言、高效的二进制序列化协议,被常常用于序列化框架使用。Hessian序列化协议分为Hessian1.0和Hessian2.0,Hessian2.0协议对序列化过程进行了优化(优化内容待看),在性能上相较Hessian1.0有明显提高。 使用Hessian序列化很是简单,只须要经过HessianInput和HessianOutput便可完成对象的序列化,下面是Hessian序列化的Demo:
通用性
Hessian与Protobuf、Thrift同样,支持跨语言RPC通讯。Hessian相比其它跨语言PRC框架的一个主要优点在于,它不是采用IDL来定义数据和服务,而是经过自描述来完成服务的定义。目前Hessian已经实现了语言包括:Java、Flash/Flex、Python、C++、.Net/C#、D、Erlang、PHP、Ruby、Object-C。
易用性
相较于Protobuf和Thrift,因为Hessian不须要经过IDL来定义数据和服务,对于序列化的数据只须要实现Serializable接口便可,因此使用上相比Protobuf和Thrift更加容易。
可扩展性
Hession序列化类虽然须要实现Serializable接口,可是它并不受serialVersionUID影响,可以轻松支持字段扩展。
性能
使用Hessian1.0协议序列化上面的测试用例,序列化结果大小为277。使用Hessian2.0序列化协议,序列化结果大小为178。
序列化化与反序列化的时间开销以下:
能够看到Hessian1.0的不管在序列化后体积大小,仍是在序列化、反序列化时间上都比Hessian2.0相差很远。
数据类型和语法结构支持
因为Hession使用Java自描述序列化类,因此Java原生数据类型、集合类、自定义类、枚举等基本都可以支持(SynchronousQueue不支持),Java语法结构也可以很好的支持。
7 Avro序列化框架Avro是一个数据序列化框架。它是Apache Hadoop下的一个子项目,由Doug Cutting主导Hadoop过程当中开发的数据序列化框架。Avro在设计之初就用于支持数据密集型应用,很适合远程或本地大规模数据交换和存储。
通用性
Avro经过Schema定义数据结构,目前支持Java、C、C++、C#、Python、PHP和Ruby语言,因此在这些语言之间Avro具备很好的通用性。
易用性
Avro对于动态语言无需生成代码,但对于Java这类静态语言,仍是须要使用avro-tools.jar来编译生成Java代码。在Schema编写上,我的感受相比Thrift、Protobuf更加复杂。
可扩展性
性能
使用Avro生成代码序列化以后的结果为:111。下面是使用Avro序列化的时间开销:
数据类型和语法结构支持
Avro须要使用Avro所支持的数据类型来编写Schema信息,因此可以支持的Java数据类型即为Avro所支持的数据类型。Avro支持数据类型有:基础类型(null、boolean、int、long、float、double、bytes、string),复杂数据类型(Record、Enum、Array、Map、Union、Fixed)。
Avro自动生成代码,或者直接使用Schema,不能支持在序列化类中定义java方法。
三 总结 1 通用性下面是从通用性上对比各个序列化框架,能够看出Protobuf在通用上是最佳的,可以支持多种主流变成语言。
2 易用性
下面是从API使用的易用性上面来对比各个序列化框架,能够说除了JDK Serializer外的序列化框架都提供了不错API使用方式。
3 可扩展性
下面是各个序列化框架的可扩展性对比,能够看到Protobuf的可扩展性是最方便、天然的。其它序列化框架都须要一些配置、注解等操做。
4 性能
序列化大小对比
对比各个序列化框架序列化后的数据大小以下,能够看出kryo preregister(预先注册序列化类)和Avro序列化结果都很不错。因此,若是在序列化大小上有需求,能够选择Kryo或Avro。
序列化时间开销对比
下面是序列化与反序列化的时间开销,kryo preregister和fst preregister都能提供优异的性能,其中fst pre序列化时间就最佳,而kryo pre在序列化和反序列化时间开销上基本一致。因此,若是序列化时间是主要的考虑指标,能够选择Kryo或FST,都能提供不错的性能体验。
5 数据类型和语法结构支持
各序列化框架对Java数据类型支持的对比:
注:集合类型测试基本覆盖了全部对应的实现类。
下面根据测试总结了以上序列化框架所能支持的数据类型、语法。
因为Protobuf、Thrift是IDL定义类文件,而后使用各自的编译器生成Java代码。IDL没有提供定义staic内部类、非static内部类等语法,因此这些功能没法测试。
感谢你们的认同与支持,小编会持续转发《乐字节》优质文章