Protocol Buffer是Google出品的数据传输协议,目前已经普遍用于客户端和服务器之间的数据交互,清晰理解Protocol Buffer原理颇有必要,本文主要解密Protocol Buffer为何更小,更快,不了解Protocol Buffer的能够看下以前对Protocol Buffer的介绍java
Protocol Buffer更快,更小的主要缘由以下:算法
message SearchRequest {
string query = 1;
int32 page_number = 2;
int32 result_per_page = 3;
}
复制代码
上述数据在序列化时,query,page_number以及result_per_page的key不会参与,由编号1,2,3替代,这样在反序列的时候能够直接经过编号找到对应的key,这样作确实能够减少传输数据,可是编号一旦肯定就不可更改bash
Protocol Buffer的数据组成方式为TLV,数据结构图以下: 服务器
Protocol Buffer定义了以下的数据类型,其中部分数据类型已经再也不使用:数据结构
类型 | 释义 | 备注 |
---|---|---|
0 | 可变长度编码 | int32 int64 uint32 uint64 sint32 sint64 bool enum |
1 | 64位长度 | fixed64 sfixed64 double |
2 | value 的长度 | string bytes message packed repeated fiels |
3 | Start Group | 废弃 |
4 | End Group | 废弃 |
5 | 32位长度 | fixed32 sfixed32 float |
上面已经介绍了Protocol Buffer的数据结构及Tag的类型,可是Tag块并非只表示数据类型,其中数据编号也在Tag块中,Tag的生成规则以下:工具
(field_number << 3) | wire_type
复制代码
其中Tag块的后3位表示数据类型,其余位表示数据编号post
Java中整数类型的长度都是肯定的,如int类型的长度为4个字节,可表示的整数范围为-2^31——2^31-1,可是实际开发中用到的数字均比较小,会形成字节浪费,可变长度编码就能很好的解决这个问题,可变长度编码规则以下:ui
举个例子: 编码
10000001 00000011 ——> 00000110000001 表示的10进制数为:2^0 + 2^7 + 2^8 = 385
经过上面的例子能够知道一个字节表示的数的范围0-128,上面介绍的Tag生成算法中因为后3位表示数据类型,因此Tag中1-15编号只占用1个字节,因此确保编号中1-15为经常使用的,减小数据大小spa
可变长度编码惟一的缺点就是当数很大的时候int32须要占用5个字节,可是从统计学角度来讲,通常不会有这么大的数
Java中最高位表示整数的正负,经过上面可变长度编码介绍,最高位被用来做为数据结束标识符了,因此无法经过最高位来表示数据的正负,使用int32或者int64表示负数的时候占用10个字节,这是Protocol Buffer源码中规定的,因此若是要使用负数强烈不建议使用int32和int64,建议使用sint32和sint64,sint32和sint64先使用zigZag编码,生成的数再使用可变长度编码,下面介绍一下zigzag编码.
zigzag编码的代码以下:
Zigzag(n) = (n << 1) ^ (n >> 31), n 为 sint32 时
Zigzag(n) = (n << 1) ^ (n >> 63), n 为 sint64 时
复制代码
按照这种编码方式,对应的数字以下:
定长编码其实没什么说的,double float等数据结构的长度是肯定的,当解析到这种类型的数据时,直接取对应长度的数据便可
上面介绍了Protocol Buffer的原理,如今经过实例来展现分析过程,咱们定义的proto文件以下:
message Person {
string name = 1;
int32 id = 2;
}
复制代码
经过Protocol Buffer提供的工具,建立对应的源文件而且设置对应的值:name=test id=1,序列化后的字节以下:
上面介绍了Protocol Buffer的原理,解释了为何Protocol Buffer更快,更小,这里再总结一下: