序列化和反序列化及Protobuf 基本使用

时间 2019-11-18

原文原文链接

目录数据结构

序列化和反序列化

序列化和反序列化在日常工做中会大量使用，然而并不必定很是清楚它的概念。序列化和反序列化的选型倒是系统设计或重构一个重要的环节，在分布式、大数据量系统设计里面更为显著。机器间的通讯须要约定一个协议，序列化和反序列化是这个通讯协议的一部分。
序列化：将对象或数据结构转为字节序列的过程。
反序列化：将序列化后生成的字节序列转为对象或数据结构的过程。分布式

经常使用序列化和反序列化组件

比较常见的序列化和反序列化组方式有XML、JSON和Protobuf等。XML标准化较早，基于XML的SOAP是一种应用普遍的结构化数据传递协议。JSON源于js，较之XML它更小、解析更快，并且一样具有可读性好的优势。而源于谷歌的protobuf如今在大型分布式系统普遍使用。大数据

Protobuf

Protobuf是谷歌推出的一款平台无关，语言无关，可扩展的序列化和反序列化技术。ui

字段规则

要使用Protobuf，首先须要定义.proto文件
以下proto2中：编码

message msg
{
    required int32 a=1;
    optional string b=2;
    repeated string c=3;
}

其中：spa

message是消息定义的关键字。
required 表示这个字段必须的，必须在序列化的时候被赋值。
optional 表明这个字段是可选的，能够为0个或1个但不能大于1个。
repeated 则表明此字段能够被重复任意屡次包括0次。相似C++ STL中的vector。
int32和string是字段的类型。后面是咱们定义的字段名。
最后的1，2，3则是表明每一个字段的一个惟一的编号标签，在同一个消息里不能够重复。这些编号标签用与在消息二进制格式中标识你的字段，而且消息一旦定义就不能更改。须要说明的是标签在1到15范围的采用一个字节进行编码。因此一般将标签1到15用于频繁发生的消息字段。编号标签大小的范围是1到\(2^{29}-1\)。此外不能使用protobuf系统预留的编号标签（19000 －19999）。

而在proto3中，字段规则中去除了required和optional，增长singular。可是proto3仍兼容proto2。设计

message msg
{
    int32 a=1;
    singular string b=2;
    repeated string c=3;
}

其中，code

singular：一个格式良好的消息应该有0个或者1个这种字段（可是不能超过1个）。
repeated
在proto3中，repeated的标量域默认状况下使用packed。

一个较完整的.proto文件对象

syntax = "proto3";
message Article {
  int32 article_id = 1;
  singular string article_excerpt = 2;
  repeated string article_picture = 3;
  singular int32  article_pagecount = 4 [default = 0];
  enum ArticleType {
    NOVEL = 0;
    PROSE = 1;
    PAPER = 2;
    POETRY = 3;
  }
  singular ArticleType article_type = 5 [default = NOVEL];
  message Author {
    string name = 1; 
    singular string phone = 2;
  }
  singular Author author = 6;
  repeated int32 article_numberofwords = 7 [packed=true];
  reserved  9, 10, 12 to 15;
  extensions 100 to 1000;
}

extend Article {
  singular int32 followers_count = 101;
  singular int32 likes_count= 102;
}

message Other {
  singular string other_info = 1;
  oneof test_oneof {
    string code1 = 2;
    string code2 = 3;
  }
}

上面proto文件，咱们定义了enum枚举类型，嵌套的消息。甚至对原有的消息进行了扩展，也能够对字段设置默认值。添加注释等，相似C++注释。
此外reserved关键字主要用于保留相关编号标签，主要是防止在更新proto文件删除了某些字段，而将来的使用者定义新的字段时从新使用了该编号标签。这会引发一些问题在获取老版本的消息时，譬如数据冲突，隐藏的一些bug等。因此必定要用reserved标记这些编号标签以保证不会被使用。
当咱们须要对消息进行扩展的时候，咱们能够用extensions关键字来定义一些编号标签供第三方扩展。这样的好处是不须要修改原来的消息格式。就像上面proto文件，咱们用extend关键字来扩展。只要扩展的字段编号标签在extensions定义的范围里。
对于基本数值类型，因为历史缘由，不能被protobuf更有效的encode。因此在新的代码中使用packed=true能够更加有效率的encode。注意packed只能用于repeated 数值类型的字段。不能用于string类型的字段。
在消息Other中咱们看到定义了一个oneof关键字。这个关键字做用比较有意思。当你设置了oneof里某个成员值时，它会自动清除掉oneof里的其余成员，也就是说同一时刻oneof里只有一个成员有效。这经常使用于你有许多optional字段时但同一时刻只能使用其中一个，就能够用oneof来增强这种效果。但须要注意的是oneof里的字段不能用singular，repeated关键字。

导入定义

咱们总不能都定义在一个文件中。当一个proto文件须要另外一个proto文件的时候，咱们能够经过import导入。protobuf也提供了包的定义，只要在文件开头定义package关键字便可。string

import "test.proto"
package foo.bar;

编译问题

针对不一样语言，依据.proto文件编译成咱们须要的语言文件。如C++下

protoc -I=SRC_DIR --cpp_out=DST_DIR SRC_DIR/ex.proto

先简单记录这些。