金蝶随手记团队分享：还在用JSON? Protobuf让数据传输更省更快(原理篇)

时间 2019-12-08

标签随手团队分享还在 json protobuf 数据传输更快原理栏目 JavaScript 繁體版

原文原文链接

本文做者：丁同舟，转载自“随手记技术团队”微信公众号。php

一、前言

跟移动端IM中追求数据传输效率、网络流量消耗等需求同样，随手记客户端与服务端交互的过程当中，对部分数据的传输大小和效率也有较高的要求，普通的数据格式如 JSON 或者 XML 已经不能知足，所以决定采用 Google 推出的 Protocol Buffers 以达到数据高效传输。html

（本文同步发布于：http://www.52im.net/thread-1510-1-1.html）

缓存

二、系列文章

本文是系列文章中的第1篇，总目录以下：

微信

《金蝶随手记团队分享：还在用JSON? Protobuf让数据传输更省更快(原理篇)》（本文）
《金蝶随手记团队分享：还在用JSON? Protobuf让数据传输更省更快(实践篇)》

另外，若是您还打算系统地了解IM的开发知识，能够阅读《新手入门一篇就够：从零开发移动端IM》。网络

三、参考资料

《Protobuf通讯协议详解：代码演示、详细原理介绍等》
《一个基于Protocol Buffer的Java代码演示》
《如何选择即时通信应用的数据传输格式》
《强列建议将Protobuf做为你的即时通信应用数据传输格式》
《全方位评测：Protobuf性能到底有没有比JSON快5倍？》
《移动端IM开发须要面对的技术问题（含通讯协议选择）》
《简述移动端IM开发的那些坑：架构设计、通讯协议和客户端》
《理论联系实际：一套典型的IM通讯协议设计详解》
《详解如何在NodeJS中使用Google的Protobuf》
>> 更多同类文章 ……数据结构

四、Protubuf介绍

Protocol buffers 为 Google 提出的一种跨平台、多语言支持且开源的序列化数据格式。相对于相似的 XML 和 JSON，Protocol buffers 更为小巧、快速和简单。其语法目前分为proto2和proto3两种格式。

相对于传统的 XML 和 JSON, Protocol buffers 的优点主要在于：更加小、更加快。

对于自定义的数据结构，Protobuf 能够经过生成器生成不一样语言的源代码文件，读写操做都很是方便。

假设如今有下面 JSON 格式的数据:架构

{
      "id":1,
      "name":"jojo",
      "email":"123@qq.com",
}函数

使用 JSON 进行编码，得出byte长度为43的的二进制数据：性能

7b226964 223a312c 226e616d 65223a22 6a6f6a6f 222c2265 6d61696c 223a2231 32334071 712e636f 6d227dui

若是使用 Protobuf 进行编码，获得的二进制数据仅有20个字节：

0a046a6f 6a6f1001 1a0a3132 33407171 2e636f6d

五、编码原理

相对于基于纯文本的数据结构如 JSON、XML等，Protobuf 可以达到小巧、快速的最大缘由在于其独特的编码方式。《Protobuf通讯协议详解：代码演示、详细原理介绍等》对 Protobuf 的 Encoding 做了很好的解析。

例如，对于int32类型的数字，若是很小的话，protubuf 由于采用了Varint方式，能够只用 1 个字节表示。

六、Varint原理

Varint 中每一个字节的最高位 bit 表示此 byte 是否为最后一个 byte 。1 表示后续的 byte 也表示该数字，0 表示此 byte 为结束的 byte。

例如数字 300 用 Varint 表示为 1010 1100 0000 0010：
<ignore_js_op>
图片源自《Protobuf通讯协议详解：代码演示、详细原理介绍等》

注意：
须要注意解析的时候会首先将两个 byte 位置互换，由于字节序采用了 little-endian 方式。

但 Varint 方式对于带符号数的编码效果比较差。由于带符号数一般在最高位表示符号，那么使用 Varint 表示一个带符号数不管大小就必需要 5 个 byte（最高位的符号位没法忽略，所以对于 -1 的 Varint 表示就变成了 010001）。

Protobuf 引入了 ZigZag 编码很好地解决了这个问题。

七、ZigZag编码

<ignore_js_op>

关于 ZigZag 的编码方式，博客园上的一篇博文《整数压缩编码 ZigZag》作出了详细的解释。

<ignore_js_op>

ZigZag 编码按照数字的绝对值进行升序排序，将整数经过一个 hash 函数h(n) = (n<<1)^(n>>31)（若是是 sint64 h(n) = (n<<1)^(n>>63)）转换为递增的 32 位 bit 流。

关于为何 64 的 ZigZag 为 80 01，《整数压缩编码 ZigZag》中有关于其编码惟一可译性的解释。

经过 ZigZag 编码，只要绝对值小的数字，均可以用较少位的 byte 表示。解决了负数的 Varint 位数会比较长的问题。

八、T-V and T-L-V

Protobuf 的消息结构是一系列序列化后的Tag-Value对。其中 Tag 由数据的 field 和 writetype组成，Value 为源数据编码后的二进制数据。

假设有这样一个消息:

message Person {
int32 id = 1;
string name = 2;
}

其中，id字段的field为1，writetype为int32类型对应的序号。编码后id对应的 Tag 为 (field_number << 3) | wire_type = 0000 1000，其中低位的 3 位标识 writetype，其余位标识field。

每种类型的序号能够从这张表获得:
<ignore_js_op>

须要注意，对于string类型的数据（在上表中第三行），因为其长度是不定的，因此 T-V的消息结构是不能知足的，须要增长一个标识长度的Length字段，即T-L-V结构。

九、Protobuf的反射机制

Protobuf 自己具备很强的反射机制，能够经过 type name 构造具体的 Message 对象。陈硕的文章《一种自动反射消息类型的 Google Protobuf 网络传输方案》中对 GPB 的反射机制作了详细的分析和源码解读。这里经过 protobuf-objectivec 版本的源码，分析此版本的反射机制。

<ignore_js_op>

陈硕对 protobuf 的类结构作出了详细的分析 —— 其反射机制的关键类为Descriptor类：

每一个具体 Message Type 对应一个 Descriptor 对象。尽管咱们没有直接调用它的函数，可是Descriptor在“根据 type name 建立具体类型的 Message 对象”中扮演了重要的角色，起了桥梁做用。

同时，陈硕根据 GPB 的 C++ 版本源代码分析出其反射的具体机制：DescriptorPool类根据 type name 拿到一个 Descriptor的对象指针，在经过MessageFactory工厂类根据Descriptor实例构造出具体的Message对象。

示例代码以下：

 
         Message* createMessage( 
         const 
         std::string& typeName) 
        
         { 
        
         Message* message = NULL; 
        
         const 
         Descriptor* descriptor = DescriptorPool::generated_pool()->FindMessageTypeByName(typeName); 
        
         if 
         (descriptor) 
        
         { 
        
         const 
         Message* prototype = MessageFactory::generated_factory()->GetPrototype(descriptor); 
        
         if 
         (prototype) 
        
         { 
        
         message = prototype->New(); 
        
         } 
        
         } 
        
         return 
         message; 
        
         }

注意：

DescriptorPool 包含了程序编译的时候所连接的所有 protobuf Message types
MessageFactory 能建立程序编译的时候所连接的所有 protobuf Message types

十、以Protobuf-objectivec为例

在 OC 环境下，假设有一份 Message 数据结构以下：

 
         message Person { 
        
         string name = 1; 
        
         int32 id = 2; 
        
         string email = 3; 
        
         }

解码此类型消息的二进制数据：

 
         Person *newP = [[Person alloc] initWithData:data error: 
         nil 
         ];

这里调用了：

 
         - (instancetype)initWithData:( 
         NSData 
         *)data error:( 
         NSError 
         **)errorPtr { 
        
         return 
         [ 
         self 
         initWithData:data extensionRegistry: 
         nil 
         error:errorPtr]; 
        
         }

其内部调用了另外一个构造器：

 
         - (instancetype)initWithData:(NSData *)data 
        
         extensionRegistry:(GPBExtensionRegistry *)extensionRegistry 
        
         error 
         :(NSError **)errorPtr { 
        
         if 
         ((self = [self init])) { 
        
         @try { 
        
         [self mergeFromData:data extensionRegistry:extensionRegistry]; 
        
         //... 
        
         } 
        
         @catch (NSException *exception) { 
        
         //...   
        
         } 
        
         } 
        
         return self; 
        
         }

去掉一些防护代码和错误处理后，能够看到最终由mergeFromData:方法实现构造：

 
         - ( 
         void 
         )mergeFromData:( 
         NSData 
         *)data extensionRegistry:(GPBExtensionRegistry *)extensionRegistry { 
        
         GPBCodedInputStream *input = [[GPBCodedInputStream alloc] initWithData:data];  
         //根据传入的`data`构造出数据流对象 
        
         [ 
         self 
         mergeFromCodedInputStream:input extensionRegistry:extensionRegistry];  
         //经过数据流对象进行merge 
        
         [input checkLastTagWas:0];  
         //校检 
        
         [input release]; 
        
         }

这个方法主要作了两件事：

1）经过传入的 data 构造GPBCodedInputStream对象实例；
2）经过上面构造的数据流对象进行 merge 操做。

GPBCodedInputStream负责的工做很简单，主要是把源数据缓存起来，并同时保存一系列的状态信息，例如size, lastTag等。

其数据结构很是简单：

 
         typedef 
         struct 
         GPBCodedInputStreamState { 
        
         const 
         uint8_t *bytes; 
        
         size_t bufferSize; 
        
         size_t bufferPos; 
        
         // For parsing subsections of an input stream you can put a hard limit on 
        
         // how much should be read. Normally the limit is the end of the stream, 
        
         // but you can adjust it to anywhere, and if you hit it you will be at the 
        
         // end of the stream, until you adjust the limit. 
        
         size_t currentLimit; 
        
         int32_t lastTag; 
        
         NSUInteger 
         recursionDepth; 
        
         } GPBCodedInputStreamState; 
        
         @interface 
         GPBCodedInputStream () { 
        
         @package 
        
         struct 
         GPBCodedInputStreamState state_; 
        
         NSData 
         *buffer_; 
        
         }

merge 操做内部实现比较复杂，首先会拿到一个当前 Message 对象的 Descriptor 实例，这个 Descriptor 实例主要保存 Message 的源文件 Descriptor 和每一个 field 的 Descriptor，而后经过循环的方式对 Message 的每一个 field 进行赋值。

Descriptor 简化定义以下：

 
    
     
       
       
         @interface 
         GPBDescriptor :  
         NSObject 
         < 
         NSCopying 
         > 
        
 
         @property 
         ( 
         nonatomic 
         ,  
         readonly 
         , strong, nullable)  
         NSArray 
         <GPBFieldDescriptor*> *fields; 
        
 
         @property 
         ( 
         nonatomic 
         ,  
         readonly 
         , strong, nullable)  
         NSArray 
         <GPBOneofDescriptor*> *oneofs;  
         //用于 repeated 类型的 filed 
        
 
         @property 
         ( 
         nonatomic 
         ,  
         readonly 
         , assign) GPBFileDescriptor *file; 
        
 
         @end 
        
 
     
 
    
  

其中GPBFieldDescriptor定义以下：

 
         @interface 
         GPBFieldDescriptor () { 
        
         @package 
        
         GPBMessageFieldDescription *description_; 
        
         GPB_UNSAFE_UNRETAINED GPBOneofDescriptor *containingOneof_; 
        
         SEL 
         getSel_; 
        
         SEL 
         setSel_; 
        
         SEL 
         hasOrCountSel_;   
         // *Count for map<>/repeated fields, has* otherwise. 
        
         SEL 
         setHasSel_; 
        
         }

其中GPBMessageFieldDescription保存了 field 的各类信息，如数据类型、filed 类型、filed id等。除此以外，getSel和setSel为这个 field 在对应类的属性的 setter 和 getter 方法。

mergeFromCodedInputStream:方法的简化版实现以下：

 
         - ( 
         void 
         )mergeFromCodedInputStream:(GPBCodedInputStream *)input 
        
         extensionRegistry:(GPBExtensionRegistry *)extensionRegistry { 
        
         GPBDescriptor *descriptor = [ 
         self 
         descriptor];  
         //生成当前 Message 的`Descriptor`实例 
        
         GPBFileSyntax syntax = descriptor.file.syntax;  
         //syntax 标识.proto文件的语法版本 (proto2/proto3) 
        
         NSUInteger 
         startingIndex = 0;  
         //当前位置 
        
         NSArray 
         *fields = descriptor->fields_;  
         //当前 Message 的全部 fileds 
        
         //循环解码 
        
         for 
         ( 
         NSUInteger 
         i = 0; i < fields.count; ++i) { 
        
         //拿到当前位置的`FieldDescriptor` 
        
         GPBFieldDescriptor *fieldDescriptor = fields[startingIndex]; 
        
         //判断当前field的类型 
        
         GPBFieldType fieldType = fieldDescriptor.fieldType; 
        
         if 
         (fieldType == GPBFieldTypeSingle) { 
        
         //`MergeSingleFieldFromCodedInputStream` 函数中解码 Single 类型的 field 的数据 
        
         MergeSingleFieldFromCodedInputStream( 
         self 
         , fieldDescriptor, syntax, input, extensionRegistry); 
        
         //当前位置+1 
        
         startingIndex += 1;  
        
         }  
         else 
         if 
         (fieldType == GPBFieldTypeRepeated) { 
        
         // ... 
        
         // Repeated 解码操做 
        
         }  
         else 
         {   
        
         // ... 
        
         // 其余类型解码操做 
        
         } 
        
         }   
         // for(i < numFields) 
        
         }

能够看到，descriptor在这里是直接经过 Message 对象中的方法拿到的，而不是经过工厂构造：

 
         GPBDescriptor *descriptor = [ 
         self 
         descriptor]; 
        
         //`desciptor`方法定义 
        
         - (GPBDescriptor *)descriptor { 
        
         return 
         [[ 
         self 
         class 
         ] descriptor];  
        
         }

这里的descriptor类方法其实是由GPBMessage的子类具体实现的。

例如在Person这个消息结构中，其descriptor方法定义以下：

 
         + (GPBDescriptor *)descriptor { 
        
         static 
         GPBDescriptor *descriptor =  
         nil 
         ; 
        
         if 
         (!descriptor) { 
        
         static 
         GPBMessageFieldDescription fields[] = { 
        
         { 
        
         .name =  
         "name" 
         , 
        
         .dataTypeSpecific.className =  
         NULL 
         , 
        
         .number = Person_FieldNumber_Name, 
        
         .hasIndex = 0, 
        
         .offset = (uint32_t)offsetof(Person__storage_, name), 
        
         .flags = GPBFieldOptional, 
        
         .dataType = GPBDataTypeString, 
        
         }, 
        
         //... 
        
         //每一个field都会在这里定义出`GPBMessageFieldDescription` 
        
         }; 
        
         GPBDescriptor *localDescriptor =  
         //这里会根据fileds和其余一系列参数构造出一个`Descriptor`对象 
        
         descriptor = localDescriptor; 
        
         } 
        
         return 
         descriptor; 
        
         }

接下来，在构造出 Message 的 Descriptor 后，会对全部的 fields 进行遍历解码。解码时会根据不一样的fieldType调用不一样的解码函数。

例如对于fieldType == GPBFieldTypeSingle，会调用 Single 类型的解码函数:

 
         MergeSingleFieldFromCodedInputStream( 
         self 
         , fieldDescriptor, syntax, input, extensionRegistry); 
        
         MergeSingleFieldFromCodedInputStream内部提供了一系列宏定义，针对不一样的数据类型进行数据解码。 
        
         #define CASE_SINGLE_POD(NAME, TYPE, FUNC_TYPE)                             \ 
        
         case 
         GPBDataType##NAME: {                                              \ 
        
         TYPE val = GPBCodedInputStreamRead##NAME(&input->state_);            \ 
        
         GPBSet##FUNC_TYPE##IvarWithFieldInternal( 
         self 
         , field, val, syntax);  \ 
        
         break 
         ;                                                               \ 
        
         } 
        
         #define CASE_SINGLE_OBJECT(NAME)                                           \ 
        
         case 
         GPBDataType##NAME: {                                              \ 
        
         id 
         val = GPBCodedInputStreamReadRetained##NAME(&input->state_);      \ 
        
         GPBSetRetainedObjectIvarWithFieldInternal( 
         self 
         , field, val, syntax); \ 
        
         break 
         ;                                                               \ 
        
         } 
        
         CASE_SINGLE_POD(Int32, int32_t, Int32) 
        
         ... 
        
         #undef CASE_SINGLE_POD 
        
         #undef CASE_SINGLE_OBJECT

例如对于int32类型的数据，最终会调用int32_t GPBCodedInputStreamReadInt32(GPBCodedInputStreamState *state);函数读取数据并赋值。

这里内部实现其实就是对于 Varint 编码的解码操做：

 
         int32_t GPBCodedInputStreamReadInt32(GPBCodedInputStreamState *state) { 
        
         int32_t value = ReadRawVarint32(state); 
        
         return 
         value; 
        
         }

在对数据解码完成后，拿到一个int32_t，此时会调用GPBSetInt32IvarWithFieldInternal进行赋值操做，其简化实现以下：

 
         void 
         GPBSetInt32IvarWithFieldInternal(GPBMessage * 
         self 
         , 
        
         GPBFieldDescriptor *field, 
        
         int32_t value, 
        
         GPBFileSyntax syntax) { 
        
         //最终的赋值操做 
        
         //此处`self`为`GPBMessage`实例 
        
         uint8_t *storage = (uint8_t *) 
         self 
         ->messageStorage_; 
        
         int32_t *typePtr = (int32_t *)&storage[field->description_->offset]; 
        
         *typePtr = value; 
        
         }

其中typePtr为当前须要赋值的变量的指针。至此，单个 field 的赋值操做已经完成。

总结一下，在 protobuf-objectivec 版本中，反射机制中构建 Message 对象的流程大体为：

1）经过 Message 的具体子类构造其 Descriptor，Descriptor 中包含了全部 field 的 FieldDescriptor；
2）循环经过每一个 FieldDescriptor 对当前 Message 对象的指定 field 赋值。

（本文同步发布于：http://www.52im.net/thread-1510-1-1.html）