带状态的分布式离不开数据,本文想说下数据的格式,在内存中主要考虑空间复杂度和cpu操做时间复杂性,后面会单讲,分布式里经常使用的B,B+,list,set,跳表,hash,空间的R树,前缀树,压缩前缀树,涉及到这几种。在网络和磁盘中考虑格式和人编辑格式到物理格式之间的映射,在牺牲cpu处理压缩和解压缩下,能够减小磁盘占用和网络开销,下面主要讲三种网络通讯的数据压缩thriftBP,PB,Avro和几种磁盘数据压缩性能对比,snappy的原理,EC原理。其中涉及到两种压缩算法:数字变长编码和动态词典编码。html
这个就太多了。。略redis
thrift BinaryProtocal 字段名替换为序号算法
{ "userName": "Martin", "favoriteNumber": 1337, "interests": ["daydreaming", "hacking"] }
=》压缩格式:shell
field和type在单个字节。数据的优化数据最高位标识是否还有后续,这个1337有错误,是下面的apache
只能添加或删除有默认值的字段json
可变长数字编码
int等固定64位的转为二进制,本身断定长度。
1.连续位标识
以上数字的转变全是基于VLQ可变长二进制数字编码
的变体。最低位加0表示整数,1表示负数,而后7位一个分割。从最后开始,每一个后面有第一位是1,不然是0.
2.前缀长度。
前缀标识固定的长度,redis中也有不少前缀标识长度的压缩好比UTF8:网络
第一个字节 | 第二个字节 | 第三个字节 | 第四个字节 | 用于实际编码的bit数量 | 能表示的最大unicode值 |
0xxxxxxx | 7 | 127 | |||
110xxxxx | 10xxxxxx | 11 | 2047 | ||
1110xxxx | 10xxxxxx | 10xxxxxx | 16 | 65535 | |
11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 21 | 1114111 |
https://catchchallenger.first...:_Gzip_vs_Bzip2_vs_LZMA_vs_XZ_vs_LZ4_vs_LZO
https://www.percona.com/blog/...数据结构
如何快速找到最长匹配字符串?:简单的将窗口中全部字符顺序组合存入hash,也能够存固定长度,好比2,匹配多个后再继续向后比这些固定长度匹配的位置。
snappy 将整个数据切割为32k一个大小的块,块之间无关联,2个字节就可表示匹配字符串的相对位置,匹配长度至少为4,hash字符串长度也固定为4.输出字符串的压缩形式为 <编码方案,匹配字符串起始位置差值,匹配字符串长度>app