分布式系统的基石序列化笔记

时间 2019-11-17

标签分布式系统基石序列笔记栏目系统架构繁體版

原文原文链接

了解序列化的意义java

Java 平台容许咱们在内存中建立可复用的Java 对象，
但通常状况下，只有当JVM 处于运行时，这些对象才可能存在，即，这些对象的生命周期不会比JVM 的生命周期更长。
但在现实应用中，就可能要求在JVM中止运行以后可以保存(持久化)指定的对象，并在未来从新读取被保存的对象。
Java 对象序列化就可以帮助咱们实现该功能
简单来讲：
- 序列化是把对象的状态信息转化为可存储或传输的形式过程，也就是把对象转化为字节序列的过程称为对象的序列化
- 反序列化是序列化的逆向过程，把字节数组反序列化为对象，把字节序列恢复为对象的过程成为对象的反序列化

评价一个序列化算法优劣的两个重要指标是：git

序列化之后的数据大小
序列化操做自己的速度及系统资源开销（CPU、内存）

Java 语言自己提供了对象序列化机制，也是Java 语言自己最重要的底层机制之一,github

Java 自己提供的序列化机制存在两个问题：
- 序列化的数据比较大，传输效率低
- 其余语言没法识别和对接

在Java 中，只要一个类实现了java.io.Serializable 接口，那么它就能够被序列化算法

基于JDK 序列化方式实现
- JDK 提供了Java 对象的序列化方式，主要经过输出流java.io.ObjectOutputStream 和对象输入流java.io.ObjectInputStream来实现。
- 被序列化的对象须要实现java.io.Serializable 接口。

序列化的高阶认识：json

serialVersionUID 的做用
- Java 的序列化机制是经过判断类的serialVersionUID 来验证版本一致性的。
  - 在进行反序列化时，JVM 会把传来的字节流中的serialVersionUID与本地相应实体类的serialVersionUID 进行比较，
  - 若是相同就认为是一致的，能够进行反序列化，不然就会出现序列化版本不一致的异常，便是InvalidCastException
  - 若是没有为指定的class 配置serialVersionUID，那么java 编译器会自动给这个class 进行一个摘要算法，
    - 相似于指纹算法，只要这个文件有任何改动，获得的UID 就会大相径庭的，能够保证在这么多类中，这个编号是惟一的
serialVersionUID 有两种显示的生成方式：
- 一是默认的1L，好比：private static final long serialVersionUID = 1L;
- 二是根据类名、接口名、成员方法及属性等来生成一个64 位的哈希字段
当实现java.io.Serializable 接口的类没有显式地定义一个serialVersionUID 变量时候:
- Java 序列化机制会根据编译的Class 自动生成一个serialVersionUID 做序列化版本比较用
  - 这种状况下，若是Class 文件(类名，方法明等)没有发生变化(增长空格，换行，增长注释等等)，
  - 就算再编译屡次，serialVersionUID 也不会变化的
静态变量序列化
- 序列化并不保存静态变量

父类的序列化
- 一个子类实现了 Serializable 接口，它的父类都没有实现 Serializable接口
  - 在子类中设置父类的成员变量的值，接着序列化该子类对象。
  - 再反序列化出来之后输出父类属性的值。结果应该是什么？
    - 以下,结论：
      1. 当一个父类没有实现序列化时，子类继承该父类而且实现了序列化。
        
        在反序列化该子类后，是没办法获取到父类的属性值的
      2. 当一个父类实现序列化，子类自动实现序列化，不须要再显示实现Serializable 接口
      3. 当一个对象的实例变量引用了其余对象，序列化该对象时也会把引用对象进行序列化，
        
        可是前提是该引用对象必须实现序列化接口

Transient 关键字：后端

Transient 关键字的做用是控制变量的序列化，
- 在变量声明前加上该关键字，能够阻止该变量被序列化到文件中，
- 在被反序列化后，transient变量的值被设为初始值，如 int 型的是 0，对象型的是 null
绕开transient 机制的办法
- writeObject和readObject 这两个私有的方法，既不属于Object、也不是Serializable，为何可以在序列化的时候被调用呢？
- 缘由是，ObjectOutputStream使用了反射来寻找是否声明了这两个方法。
- 由于ObjectOutputStream使用getPrivateMethod，因此这些方法必须声明为private 以致于供ObjectOutputStream 来使用

序列化的存储规则api

同一对象两次（开始写入文件到最终关闭流这个过程算一次，下面的演示效果是不关闭流的状况才能演示出效果）写入文件
打印出写入一次对象后的存储大小和写入两次后的存储大小，第二次写入对象时文件只增长了 5 字节
Java 序列化机制为了节省磁盘空间，具备特定的存储规则
当写入文件的为同一对象时，并不会再将对象的内容进行存储，而只是再次存储一份引用
该存储规则极大的节省了存储空间

序列化实现深克隆
- 在Java 中存在一个Cloneable 接口，经过实现这个接口的类都会具有clone 的能力
- 同时clone 是在内存中进行，在性能方面会比咱们直接经过new 生成对象要高一些
  - 特别是一些大的对象的生成，性能提高相对比较明显
浅克隆
- 被复制对象的全部变量都含有与原来的对象相同的值，而全部的对其余对象的引用仍然指向原来的对象。
- 新老对象指向同一个堆内存，改变其中一个另外一个也会随之改变，显然大多数状况下这不是咱们想要的
深克隆
- 被复制对象的全部变量都含有与原来的对象相同的值，除去那些引用其余对象的变量
- 深拷贝把要复制的对象所引用的对象都复制了一遍
- 使用序列化实现深拷贝
  - 原理是把对象序列化输出到一个流中，而后在把对象从序列化流中读取出来，这个对象就不是原来的对象了。

常见的序列化技术数组

JAVA 进行序列化有他的优势，也有他的缺点：
- 优势：JAVA 语言自己提供，使用比较方便和简单
- 缺点：不支持跨语言处理、性能相对不是很好，序列化之后产生的数据相对较大

XML 序列化框架数据结构

XML 序列化的好处在于可读性好，方便阅读和调试
可是序列化之后的字节码文件比较大，并且效率不高，适用于对性能不高，
并且QPS 较低的企业级内部系统之间的数据交换的场景，同时XML 又具备语言无关性，
因此还能够用于异构系统之间的数据交换和协议。
好比咱们熟知的Webservice，就是采用XML 格式对数据进行序列化的

JSON 序列化框架架构

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，
相对于XML 来讲，JSON 的字节流更小，并且可读性也很是好。
如今JSON数据格式在企业运用是最广泛的

JSON 序列化经常使用的开源工具备不少

Jackson https://github.com/FasterXML/jackson
阿里开源的FastJson https://github.com/alibaba/fastjon
Google 的GSON https://github.com/google/gson
- 这几种json 序列化工具中，Jackson 与fastjson 要比GSON 的性能要好，
- 可是Jackson、GSON 的稳定性要比Fastjson 好。
- 而fastjson 的优点在于提供的api 很是容易使用

Hessian 序列化框架

Hessian 是一个支持跨语言传输的二进制序列化协议，
相对于Java 默认的序列化机制来讲，Hessian 具备更好的性能和易用性，并且支持多种不一样的语言
- 实际上Dubbo 采用的就是Hessian 序列化来实现，只不过Dubbo 对Hessian 进行了重构，性能更高

Protobuf 序列化框架

Protobuf 是Google 的一种数据交换格式，它独立于语言、独立于平台。
Protobuf 使用比较普遍，主要是空间开销小和性能比较好，很是适合用于公司内部对性能要求高的RPC 调用。
另外因为解析性能比较高，序列化之后数据量相对较少，因此也能够应用在对象的持久化场景中
可是要使用Protobuf 会相对来讲麻烦些，由于他有本身的语法，有本身的编译器

下载protobuf 工具

https://github.com/google/protobuf/releases
proto 的语法
- 1. 包名
- 2. option 选项
- 3. 消息模型(消息对象、字段（字段修饰符-required/optional/repeated）字段类型（基本数据类型、枚举、消息对象）、字段名、标识号）

syntax="proto2";
package com.gupaoedu.serial;
option java_package = "com.gupaoedu.serial";
option java_outer_classname="UserProtos";
message User {
required string name=1;
required int32 age=2;
}

Protobuf 原理分析

核心原理： protobuf 使用varint（zigzag）做为编码方式，使用T-LV做为存储方式

varint 编码方式

varint 是一种数据压缩算法，其核心思想是利用bit 位来实现数据压缩。
好比：
- 对于 int32 类型的数字，通常须要 4 个字节 表示；
- 若采用Varint 编码，对于很小的 int32 类型数字，则能够用 1 个字节
假设咱们定义了一个int32 字段值=296：
- 第一步，转化为2 进制编码
- 第二步，提取字节
  - 规则：按照从字节串末尾选取7 位，并在最高位补1，构成一个字节
- 第三步，继续提取字节
  - 总体右移7 位，继续截取7 个比特位，而且在最高位补0 。
  - 由于这个是最后一个有意义的字节了。补0 不影响结果
- 第四步，拼接成一个新的字节串
  - 将原来用4 个字节表示的整数，通过varint 编码之后只须要2 个字节了。
  - varint 编码对于小于127 的数，能够最大化的压缩
varint 压缩小数据
- 好比咱们压缩一个var32 = 104 的数据
- 第一步，转换为2 进制编码
- 第二步，提取字节
  - 从末尾开始提取7 个字节而且在最高位最高位补0，由于这个是最后的7 位。
- 第三步，造成新的字节
  - 也就是经过varint 对于小于127 如下的数字编码，只须要占用1 个字节。
zigzag 编码方式
- 对于负数的处理，protobuf 使用zigzag 的形式来存储。
在计算机中，定义了原码、反码和补码。来实现负数的表示。
- 数字 8 的二进制表示为 0000 1000
- 原码
  - 经过第一个位表示符号（0 表示非负数、1 表示负数）
  - (+8) = {0000 1000}
    (-8) = {1000 1000}
- 反码
  - 由于第一位表示符号位，保持不变
  - 剩下的位，非负数保持不变、负数按位取反
    - (+8) = {0000 1000}原 ={0000 1000}反非负数，剩下的位不变。因此和原码是保持一致
    - (-8) = {1000 1000}原 =｛1111 0111｝反负数，符号位不动，剩下为取反
- 可是经过原码和反码方式来表示二进制，还存在一些问题。
  - 第一个问题：
    - 0 这个数字，按照上面的反码计算，会存在两种表示
    - (+0) ={0000 0000}原= {0000 0000}反
      (-0) ={1000 0000}原= {1111 1111}反
  - 第二个问题：
    - 符号位参与运算，会获得一个错误的结果，好比
      1 + (-1)=
    - {0000 0001}原 +{1 0000 0001}原 ={1000 0010}原 =-2
      {0000 0001}反+ {1111 1110}反 = {1111 1111}反 =-0
  - 无论是原码计算仍是反码计算。获得的结果都是错误的。因此为了解决这个问题，引入了补码的概念。
- 补码
  - 补码的概念：第一位符号位保持不变，剩下的位非负数保持不变，负数按位取反且末位加1
  - (+8) = {0000 1000}原 = {0000 1000}原 =｛0000 1000｝补
    (-8) = {1000 1000}原 =｛1111 0111｝反={1111 1000}末位加一(补码)
  - 8+（-8）= ｛0000 1000｝补 +{1111 1000}末位加一(补码) ={0000 0000}=0
- 经过补码的方式，在进行符号运算的时候，计算机就不须要关心符号的问题，统一按照这个规则来计算。就没问题
zigzag 原理
- 好比咱们存储一个 int32 = -2
  - 原码｛1 000 0010｝ ->取反 {1111 1101} ->总体加1 {111 1110}->{1111 1110}
  - zigzag 的核心思想是去掉无心义的0，最大可能性的压缩数据。
    - 对于负数，第一位表示符号位，若是补码的话，前面只能补1.
    - 就会致使陷入一个很尴尬的地步，负数彷佛没办法压缩。
  - 因此zigzag 提供了一个方法，既然第一位是符号位，那么干脆把这个符号位放到补码的最后。
  - 因此上面这个-2，将符号位移到最末尾，
- zigzag 算法定义了对于非负数形式，则把符号位移动到最后，其余总体往左移动一位。
  - 对于非负数形式2，按照总体左移1 位，右边补零的形式来表示以下
- 而在zigzag 中的计算规则是：
  - 将-2 的二进制形式｛1111 1110｝按照正数的算法，左移一位，右边补零获得{11111100},以下图左边。
  - 按照负数的形式，讲符号位移动到最右边，右移31 位，获得下面右图。
  - 再将二者取异或算法。实现最终的压缩。

最后，-2 在的结果是3. 占用一个比特位存储。
就是最大限度的去掉多余的零，创造多余零，压缩算法

存储方式

存储方式通过编码之后的数据，大大减小了字段值的占用字节数，而后基于T-LV的方式进行存储
tag 的取值为 field_number(字段数) << 3 | wire_type

Protocol总结：

Protocol Buffer 的性能好，主要体如今 序列化后的数据体积小 & 序列化速度快，最终使得传输效率高，
其缘由以下：
- 序列化速度快的缘由：
  - 编码 / 解码方式简单（只须要简单的数学运算 = 位移等等）
  - 采用 Protocol Buffer 自身的框架代码和编译器共同完成
- 序列化后的数据量体积小（即数据压缩效果好）的缘由：
  - 采用了独特的编码方式，如Varint、Zigzag 编码方式等等
  - 采用T - L - V 的数据存储方式：减小了分隔符的使用 & 数据存储得紧凑

序列化技术的选型

技术层面
1. 序列化空间开销，也就是序列化产生的结果大小，这个影响到传输的性能
2. 序列化过程当中消耗的时长，序列化消耗时间过长影响到业务的响应时间
3. 序列化协议是否支持跨平台，跨语言。由于如今的架构更加灵活，若是存在异构系统通讯需求，那么这个是必需要考虑的
4. 可扩展性/兼容性，在实际业务开发中，系统每每须要随着需求的快速迭代来实现快速更新，
  - 这就要求咱们采用的序列化协议基于良好的可扩展性/兼容性，
  - 好比在现有的序列化数据结构中新增一个业务字段，不会影响到现有的服务
5. 技术的流行程度，越流行的技术意味着使用的公司多，那么不少坑都已经淌过而且获得了解决，技术解决方案也相对成熟
6. 学习难度和易用性
选型建议
1. 对性能要求不高的场景，能够采用基于XML 的SOAP 协议
2. 对性能和间接性有比较高要求的场景，那么Hessian、Protobuf、Thrift、Avro 均可以。
3. 基于先后端分离，或者独立的对外的api 服务，选用JSON 是比较好的，对于调试、可读性都很不错
4. Avro 设计理念偏于动态类型语言，那么这类的场景使用Avro 是能够的