剖析Prometheus的内部存储机制

Prometheus有着很是高效的时间序列数据存储方法,每一个采样数据仅仅占用3.5byte左右空间,上百万条时间序列,30秒间隔,保留60天,大概花了200多G(引用官方PPT)。
接下来让咱们看看他的原理。算法

Prometheus内部主要分为三大块,Retrieval是负责定时去暴露的目标页面上去抓取采样指标数据,Storage是负责将采样数据写磁盘,PromQL是Prometheus提供的查询语言模块。性能

从最原始的抓取数据上来看,基本是这个样子,timestamp是当前抓取时间戳:优化

每一个Metric name表明了一类的指标,他们能够携带不一样的Labels,每一个Metric name + Label组合成表明了一条时间序列的数据。
例如图上的数据:编码

http_requests_total{status="200",method="GET"}
http_requests_total{status="404",method="GET"}

表示了两条不一样的时间序列。设计

在Prometheus的世界里面,全部的数值都是64bit的。每条时间序列里面记录的其实就是64bit timestamp(时间戳) + 64bit value(采样值)。code

而对于时间序列的基本特性来讲,一般是过去的数据通常是只读的,是不会变动的,当前时间的数据才会可能在写,模式以下图:blog

根据上面的分析,时间序列的存储彷佛能够设计成key-value存储的方式(基于BigTable)。索引

进一步拆分,能够像下面这样子:内存

上图的第二条样式就是如今Prometheus内部的表现形式了,__name__是特定的label标签,表明了metric name。字符串

再回顾一下Prometheus的总体流程:

上面提到了K-V存储,固然是使用了LevelDB的引擎,它的特色是顺序读写性能很是高,这是很是符合时间序列的存储的。

为了获得顺序的时间序列哈希索引值,Prometheus是这样处理的:

FNV哈希算法全名为Fowler-Noll-Vo算法,是以三位发明人Glenn Fowler,Landon Curt Noll,Phong Vo的名字来命名的,最先在1991年提出。
FNV能快速hash大量数据并保持较小的冲突率,它的高度分散使它适用于hash一些很是相近的字符串,好比URL,hostname,文件名,text,IP地址等。

1KB Chunks

在Prometheus的世界中,不管是内存仍是磁盘,它都是以1KB单位分红块来操做的。(新出的Prometheus 2.0对存储底层作了很大改动,专门针对SSD的写放大进行了优化,提升SSD的读写性能和读写次数等。)

总体流程是 抓取数据 -> 写到head chunk,写满1KB,就再生成新的块,完成的块,是不可再变动的 -> 根据配置文件的设置,有一部份chunk会被保留在内存里,按照LRU算法,按期将块写进磁盘文件内。

注意: 一条时间序列,保存到一个磁盘文件内。

时间序列的保留维护

在Prometheus的启动选项中,有一项storage.local.retention能够设置数据自动保留多长时间,例如24h,表示数据超过24小时内的将会自动清除,相似于zabbix的housekeeping功能。storage.local.series-file-shrink-ratio能够按必定的比例保留数据。

关于Chunk 块编码的剖析

Prometheus 提供三种不一样类型的块编码,用户能够在Prometheus启动时指定最新的编码方式,-storage.local.chunk-encoding-version,有效值是0,1,2。

版本0的编码是较老版本上的Prometheus上使用的,新版本已经再也不建议使用的。

版本1是当前版本默认提供的编码方式,它相对于0版有较好的压缩能力,并且在一个块内,有较高的访问速度,固然版本0的编码速度是最快的,可是相对版本1,速度优点不是特别明显。

版本2提供了一个更高的压缩比例,编码和解码须要耗更多的CPU,固然,这是取决于查询的数据集有多大。一般若是是较少的查询,仅用于存档的数据,可使用这种编码。

对比:

Chunk版本号 每一个采样点所占字节 耗CPU核 块编码耗时
1 3.3 1.6 2.9s
2 1.3 2.4 4.9s

V0 结构

V1 结构

V2 结构

Prometheus是如何访止数据丢失的呢?例如发生异常关闭或者什么别的状况?它提供了一个Checkpointing功能,对于内存里面的块,Prometheus 使用了一个checkpoint file 去同步写入磁盘,相似于Hbase的WAL原理,当发生crash时,先从checkpoint file去恢复数据。

以上内容是根据Prometheus官方人员的一份PPT摘取,原文件在此:https://files.cnblogs.com/files/vovlie/copyofprometheusstorage1-160127133731.pdf

相关文章
相关标签/搜索