压缩篇：delta-of-delta编码

时间 2019-11-08

原文原文链接

前言

本文主要讨论时序数据库中常见的一种时间戳或者数值压缩方法：delta-of-delta 算法，能够极大地下降数据存储的成本和提升数据写入、查询的性能。git

delta-of-delta 压缩时间戳是 Facebook Gorilla 论文中所提到的，论文地址：www.vldb.org/pvldb/vol8/… Prometheus TSDB 项目也是借鉴了 Facebook Gorilla 论文中的思路，能够实现很高的时序数据压缩率。github

时间戳通常采用 long 类型进行存储，须要占用 8byte 存储空间。最直接的优化就是存储时间戳的差值，这里须要起始时间戳和 delta 的最大范围阈值。有两种经常使用的实现思路：算法

假设起始时间戳为 1571889600000，delta 的最大范围阈值为 3600s，每一个 delta 的数值须要 13bit 能够存储。所以以上时间戳数据共占用空间为 64 + 13 * 4 = 116bit。数据库

思路 2 的优点是不须要对块内数据依次遍历，可是相比思路 1 可能须要更为频繁地更换起始时间，根据实际需求选择合适的压缩方案。性能

Facebook Gorilla 有详细阐述 delta-of-delta 编码的计算方式，如下为论文的摘录。优化

针对不一样时间跨度的数据，Facebook Gorilla 给出了一种较为通用的处理方案。编码

依然经过一组时间戳数据来直观感觉下 delta-of-delta 编码的压缩效果：cdn

Unix时间戳	delta	delta-of-delta	压缩后总bits
1571889600000	0	0	--
1571889600010	10	10	9
1571889600010	0	-10	9
1571889600011	1	1	9
1571889600012	1	0	1
1571889600013	1	0	1
1571889600015	2	1	9
1571889600017	2	0	1

依然假设起始时间戳为 1571889600000，delta 的最大范围阈值为 3600s，占用存储空间对好比下：blog

能够看出 delta-of-delta 算法相比 delta 算法进一步得到了更高的压缩率。在实际应用场景中，海量时序数据的时间戳都是密集且连续的，绝大部分都知足 delta-of-delta=0 的条件，这样能够大幅度下降时间戳的存储空间。get

转载请注明出处，欢迎关注个人公众号：亚普的技术轮子