【4.分布式存储】-数据编码与压缩

时间 2019-11-05

原文原文链接

带状态的分布式离不开数据，本文想说下数据的格式，在内存中主要考虑空间复杂度和cpu操做时间复杂性，后面会单讲，分布式里经常使用的B，B+，list,set,跳表,hash,空间的R树,前缀树，压缩前缀树，涉及到这几种。在网络和磁盘中考虑格式和人编辑格式到物理格式之间的映射，在牺牲cpu处理压缩和解压缩下，能够减小磁盘占用和网络开销，下面主要讲三种网络通讯的数据压缩thriftBP,PB,Avro和几种磁盘数据压缩性能对比，snappy的原理，EC原理。其中涉及到两种压缩算法：数字变长编码和动态词典编码。html

内存数据结构

这个就太多了。。略redis

IO:json/xml(无类型，unicode支持很差等),二进制编码

JSON演化messagePack
不流行，由于须要在编码数据中包含对象名称.只是删除空白和标点的感受

thrift BinaryProtocal 字段名替换为序号算法

{
    "userName": "Martin",
    "favoriteNumber": 1337,
    "interests": ["daydreaming", "hacking"]
}

=》压缩格式：
shell

pb(thrift的compactProtocal和这个同样)

field和type在单个字节。数据的优化数据最高位标识是否还有后续，这个1337有错误，是下面的apache
Avro
官方：http://avro.apache.org/docs/c...
这几种网络传输数据格式，由用户定义，就考虑数据变动时的兼容：
从上面能够看出thrift和protocal在压缩时是依赖编号的，能够换换名字，可是不能换编号，能够增长编号，旧的编号删了也不能再用，后加的向前兼容不能设为必选。
Avro在数据变动方便及其灵活，模式和数据编码分别传送，一个传一个模式，大批数据，无编号，读者模式与做者模式匹配，读者解析做者模式

只能添加或删除有默认值的字段json

可变长数字编码
int等固定64位的转为二进制，本身断定长度。
1.连续位标识
以上数字的转变全是基于VLQ可变长二进制数字编码的变体。最低位加0表示整数，1表示负数，而后7位一个分割。从最后开始，每一个后面有第一位是1，不然是0.
2.前缀长度。
前缀标识固定的长度，redis中也有不少前缀标识长度的压缩好比UTF8:网络

第一个字节	第二个字节	第三个字节	第四个字节	用于实际编码的bit数量	能表示的最大unicode值
0xxxxxxx				7	127
110xxxxx	10xxxxxx			11	2047
1110xxxx	10xxxxxx	10xxxxxx		16	65535
11110xxx	10xxxxxx	10xxxxxx	10xxxxxx	21	1114111

压缩

压缩算法对比

https://catchchallenger.first...:_Gzip_vs_Bzip2_vs_LZMA_vs_XZ_vs_LZ4_vs_LZO
https://www.percona.com/blog/...数据结构
snappy/LZ77/LZSS
DC动态词典编码：用它在词典中的位置号码代替。静态实现须要知道所有词典，讲下动态的
前向缓冲区（数据流将要处理的全部字符）的开始字符串与滑动窗口中的字符串进行最长匹配，无移动窗口，若找到输出<匹配字符串在滑动窗口的位置，长度，移除前置缓冲区中匹配部分移除后续第一个字符>,LZSS增长匹配长读限制

如何快速找到最长匹配字符串？：简单的将窗口中全部字符顺序组合存入hash，也能够存固定长度，好比2，匹配多个后再继续向后比这些固定长度匹配的位置。
snappy 将整个数据切割为32k一个大小的块，块之间无关联，2个字节就可表示匹配字符串的相对位置，匹配长度至少为4，hash字符串长度也固定为4.输出字符串的压缩形式为 <编码方案，匹配字符串起始位置差值，匹配字符串长度>app
EC编码：N个数据块和校验，能够任意丢k个相互恢复
由于咱们都是多副本，
N个Data块，生成K个Parity块，N+K中可任意丢K个
可靠性相同时比多副本冗余度低
只有一份数据可读，修复较复杂
提升可靠性：增长K，增长N和K，提升修复速度
https://blog.csdn.net/shelldo...