时序数据库连载系列：指标届的独角兽Prometheus

时间 2019-11-11

原文原文链接

简介

Prometheus是SoundCloud公司开发的一站式监控告警平台，依赖少，功能齐全。
于2016年加入CNCF，普遍用于 Kubernetes集群的监控系统中，2018.8月成为继K8S以后第二个毕业的项目。Prometheus做为CNCF生态圈中的重要一员,其活跃度仅次于 Kubernetes。node

关键功能包括：

多维数据模型：metric，labels
灵活的查询语言：PromQL，在同一个查询语句，能够对多个 metrics 进行乘法、加法、链接、取分数位等操做。
可独立部署，拆箱即用，不依赖分布式存储
经过Http pull的采集方式
经过push gateway来作push方式的兼容
经过静态配置或服务发现获取监控项
支持图表和dashboard等多种方式

核心组件：

Prometheus Server：采集和存储时序数据
client库：用于对接 Prometheus Server, 能够查询和上报数据
push gateway处理短暂任务：用于批量，短时间的监控数据的汇总节点，主要用于业务数据汇报等
定制化的exporters,好比：HAProxy， StatsD，Graphite等等，汇报机器数据的插件
告警管理：Prometheus 能够配置 rules，而后定时查询数据，当条件触发的时候，会将 alert 推送到配置的 Alertmanager
多种多样的支持工具

优点和劣势：

同InfluxDB相比, 在场景方面：PTSDB 适合数值型的时序数据。不适合日志型时序数据和用于计费的指标统计。InfluxDB面向的是通用时序平台，包括日志监控等场景。而Prometheus更侧重于指标方案。两个系统之间有很是多的类似之处，包括采集，存储，报警，展现等等
- Influxdata的组合有：telegraf+Influxdb+Kapacitor+Chronograf
- Promethues的组合有：exporter+prometheus server+AlertManager+Grafana
- 采集端prometheus主推拉的模式，同时经过push gateway支持推的模式。influxdata的采集工具telegraf则主打推的方式。
- 存储方面两者在基本思想上相通，关键点上有差别包括：时间线的索引，乱序的处理等等。
- 数据模型上Influxdb支持多值模型，String类型等，更丰富一些。
- Kapacitor 是一个混合了 prometheus 的数据处理,存储规则,报警规则以及告警通知功能的工具.而AlertManager进一步提供了分组,去重等等。
- influxdb以前提供的cluster模式被移除了，如今只保留了基于relay的高可用，集群模式做为商业版本的特性发布。prometheus提供了一种颇有特点的cluster模式，经过多层次的proxy来聚合多个prometheus节点实现扩展。
  同时开放了remote storage，所以两者又相互融合，Influxdb做为prometheus的远端存储。

OpenTSDB 的数据模型与Prometheus几乎相同，查询语言上PromQL更简洁，OpenTSDB功能更丰富。OpenTSDB依赖的是Hadoop生态,Prometheus成长于Kubernetes生态。

数据模型

采用单值模型, 数据模型的核心概念是metric,labels和samples.
格式：<metric name>{<label name>=<label value>, …}
- 例如：http_requests_total{method="POST",endpoint="/api/tracks"}。

metric的命名具备业务含义，好比http_request_total.
- 指标的类型分为：Counter， Gauge，Historgram，Summary
labels用于表示维度.Samples由时间戳和数值组成。
jobs and instances
- Prometheus 会自动生成target和instances做为标签
  - job: api-server
    - instance 1: 1.2.3.4:5670
    - instance 2: 1.2.3.4:5671

总体设计思路

d7f1fadf711ea3ac2280431af4683fa21a1124f6

Prometheus的总体技术架构能够分为几个重要模块：数据库

Main function：做为入口承担着各个组件的启动，链接，管理。以Actor-Like的模式协调组件的运行
Configuration：配置项的解析，验证，加载
Scrape discovery manager：服务发现管理器同抓取服务器经过同步channel通讯，当配置改变时须要重启服务生效。
Scrape manager：抓取指标并发送到存储组件
Storage：
- Fanout Storage：存储的代理抽象层，屏蔽底层local storage和remote storage细节，samples向下双写，合并读取。
- Remote Storage：Remote Storage建立了一个Queue管理器，基于负载轮流发送，读取客户端merge来自远端的数据。
- Local Storage：基于本地磁盘的轻量级时序数据库。
PromQL engine：查询表达式解析为抽象语法树和可执行查询，以Lazy Load的方式加载数据。
Rule manager：告警规则管理
Notifier：通知派发管理器
Notifier discovery：通知服务发现
Web UI and API：内嵌的管控界面，可运行查询表达式解析，结果展现。

PTSDB概述

本文侧重于Local Storage PTSDB的解析. PTSDB的核心包括：倒排索引+窗口存储Block。
数据的写入按照两个小时为一个时间窗口，将两小时内产生的数据存储在一个Head Block中，每个块中包含该时间窗口内的全部样本数据(chunks)，元数据文件(meta.json)以及索引文件(index)。
最新写入数据保存在内存block中， 2小时后写入磁盘。后台线程把2小时的数据最终合并成更大的数据块，通常的数据库在固定一个内存大小后，系统的写入和读取性能会受限于这个配置的内存大小。而PTSDB的内存大小是由最小时间周期，采集周期以及时间线数量来决定的。
为防止内存数据丢失，实现wal机制。删除记录在独立的tombstone文件中。json

核心数据结构和存储格式

PTSDB的核心数据结构是HeadAppender，Appender commit时wal日志编码落盘，同时写入head block中。api

1c3bfeef214fef10b714d07decfbdc64837d1a71

PTSDB本地存储使用自定义的文件结构。主要包含：WAL，元数据文件，索引，chunks，tombstones缓存

957aca7065f937c331884d8bdaea00fce08f0ba4

Write Ahead Log

WAL 有3种编码格式：时间线，数据点，以及删除点。整体策略是基于文件大小滚动，而且根据最小内存时间执行清除。服务器

当日志写入时，以segment为单位存储，每一个segment默认128M, 记录数大小达到32KB页时刷新一次。当剩余空间小于新的记录数大小时，建立新的Segment。
当compation时WAL基于时间执行清除策略，小于内存中block的最小时间的wal日志会被删除。
重启时，首先打开最新的Segment，从日志中恢复加载数据到内存。

a66f6cd6dc61f095646646a684dfff8084255c18

元数据文件

meta.json文件记录了Chunks的具体信息, 好比新的compactin chunk来自哪几个小的chunk。这个chunk的统计信息，好比：最小最大时间范围，时间线，数据点个数等等
compaction线程根据统计信息判断该blocks是否能够作compact：（maxTime-minTime）占总体压缩时间范围的50%，删除的时间线数量占整体数量的5%。数据结构

1d53ec67b7d58c31089d0dda711620fbd38d0ac4

索引

索引一部分先写入Head Block中，随着compaction的触发落盘。
索引采用的是倒排的方式，posting list里面的id是局部自增的，做为reference id表示时间线。索引compact时分为6步完成索引的落盘:Symbols->Series->LabelIndex->Posting->OffsetTable->TOC架构

Symbols存储的是tagk, tagv按照字母序递增的字符串表。好比__name__,go_gc_duration_seconds, instance, localhost:9090等等。字符串按照utf8统一编码。
Series存储了两部分信息，一部分是标签键值对的符号表引用；另一部分是时间线到数据文件的索引，按照时间窗口切割存储数据块记录的具体位置信息，所以在查询时能够快速跳过大量非查询窗口的记录数据，
为了节省空间，时间戳范围和数据块的位置信息的存储采用差值编码。
LabelIndex存储标签键以及每个标签键对应的全部标签值，固然具体存储的数据也是符号表里面的引用值。
Posting存储倒排的每一个label对所对应的posting refid
OffsetTable加速查找作的一层映射，将这部分数据加载到内存。OffsetTable主要关联了LabelIndex和Posting数据块。TOC是各个数据块部分的位置偏移量，若是没有数据就能够跳过查找。

05ad6c8d27379a05f3066bef48845ce89ae97653

Chunks

数据点存放在chunks目录下，每一个data默认512M，数据的编码方式支持XOR，chunk按照refid来索引，refid由segmentid和文件内部偏移量两个部分组成。并发

049b737962ea70c977d9adf6b1a6fd4212d2c516

Tombstones

记录删除经过mark的方式，数据的物理清除发生在compaction和reload的时候。以时间窗口为单位存储被删除记录的信息。分布式

eb3830d813f13a63bae399086b1cb54252e54a8b

查询PromQL

Promethues的查询语言是PromQL，语法解析AST，执行计划和数据聚合是由PromQL完成，fanout模块会向本地和远端同时下发查询数据，PTSDB负责本地数据的检索。
PTSDB实现了定义的Adpator，包括Select, LabelNames, LabelValues和Querier.

PromQL定义了三类查询：
瞬时数据 (Instant vector): 包含一组时序，每一个时序只有一个点，例如：http_requests_total
区间数据 (Range vector): 包含一组时序，每一个时序有多个点，例：http_requests_total[5m]
纯量数据 (Scalar): 纯量只有一个数字，没有时序，例如：count(http_requests_total)
一些典型的查询包括：

查询当前全部数据
http_requests_total
select * from http_requests_total where timestamp between xxxx and xxxx
条件查询
http_requests_total{code="200", handler="query"}
select * from http_requests_total where code="200" and handler="query" and timestamp between xxxx and xxxx
模糊查询: code 为 2xx 的数据
http_requests_total{code~="20"}
select * from http_requests_total where code like "%20%" and timestamp between xxxx and xxxx
值过滤： value大于100
http_requests_total > 100
select * from http_requests_total where value > 100 and timestamp between xxxx and xxxx
范围区间查询: 过去 5 分钟数据
http_requests_total[5m]
select * from http_requests_total where timestamp between xxxx-5m and xxxx
count 查询: 统计当前记录总数
count(http_requests_total)
select count(*) from http_requests_total where timestamp between xxxx and xxxx
sum 查询：统计当前数据总值
sum(http_requests_total)
select sum(value) from http_requests_total where timestamp between xxxx and xxxx
top 查询: 查询最靠前的 3 个值
topk(3, http_requests_total)
select * from http_requests_total where timestamp between xxxx and xxxx order by value desc limit 3
irate查询：速率查询
irate(http_requests_total[5m])
select code, handler, instance, job, method, sum(value)/300 AS value from http_requests_total where timestamp between xxxx and xxxx group by code, handler, instance, job, method;

PTSDB关键技术点

乱序处理

PTSDB对于乱序的处理采用了最小时间窗口的方式，指定合法的最小时间戳，小于这一时间戳的数据会丢弃再也不处理。
合法最小时间戳取决于当前head block里面最先的时间戳和可存储的chunk范围。
这种对于数据行为的限定极大的简化了设计的灵活性，对于compaction的高效处理以及数据完整性提供了基础。

内存的管理

使用mmap读取压缩合并后的大文件（不占用太多句柄），
创建进程虚拟地址和文件偏移的映射关系，只有在查询读取对应的位置时才将数据真正读到物理内存。
绕过文件系统page cache，减小了一次数据拷贝。
查询结束后，对应内存由Linux系统根据内存压力状况自动进行回收，在回收以前可用于下一次查询命中。
所以使用mmap自动管理查询所需的的内存缓存，具备管理简单，处理高效的优点。

Compaction

Compaction主要操做包括合并block、删除过时数据、重构chunk数据。

合并多个block成为更大的block，能够有效减小block个，当查询覆盖的时间范围较长时，避免须要合并不少block的查询结果。
为提升删除效率，删除时序数据时，会记录删除的位置，只有block全部数据都须要删除时，才将block整个目录删除。
block合并的大小也须要进行限制，避免保留了过多已删除空间(额外的空间占用)。
比较好的方法是根据数据保留时长，按百分比（如10%）计算block的最大时长, 当block的最小和最大时长超过2/3blok范围时，执行compaction

快照

PTSDB提供了快照备份数据的功能，用户经过admin/snapshot协议能够生成快照，快照数据存储于data/snapshots/-目录。

PTSDB最佳实践

在通常状况下，Prometheus中存储的每个样本大概占用1-2字节大小。若是须要对Prometheus Server的本地磁盘空间作容量规划时，能够经过如下公式计算：
needed_disk_space = retention_time_seconds * ingested_samples_per_second * bytes_per_sample
保留时间(retention_time_seconds)和样本大小(bytes_per_sample)不变的状况下，若是想减小本地磁盘的容量需求，
只能经过减小每秒获取样本数(ingested_samples_per_second)的方式。
所以有两种手段，一是减小时间序列的数量，二是增长采集样本的时间间隔。
考虑到Prometheus会对时间序列进行压缩，所以减小时间序列的数量效果更明显。
PTSDB的限制在于集群和复制。所以当一个node宕机时，会致使必定窗口的数据丢失。
固然，若是业务要求的数据可靠性不是特别苛刻，本地盘也能够存储几年的持久化数据。
当PTSDB Corruption时，能够经过移除磁盘目录或者某个时间窗口的目录恢复。
PTSDB的高可用，集群和历史数据的保存能够借助于外部解决方案，不在本文讨论范围。
历史方案的局限性，PTSDB在早期采用的是单条时间线一个文件的存储方式。这中方案有很是多的弊端，好比：
Snapshot的刷盘压力：按期清理文件的负担；低基数和长周期查询查询，须要打开大量文件；时间线膨胀可能致使inode耗尽。

PTSDB面临的挑战

在使用过程当中，PTSDB也在某些方面遇到了一些问题，好比；

Compaction对于IO, CPU, 以及Memory的影响
冷启动后，预热阶段CPU和内存占用会上升
在高速写入时会出现CPU的Spike等等

总结

PTSDB 做为K8S监控方案里面存储时序数据的实施标准，其在时序届影响力和热度都在逐步上升。Alibaba TSDB目前已经支持经过Adapter的方式做为其remote storage的方案。

#阿里云开年Hi购季#幸运抽好礼！
点此抽奖：https://www.aliyun.com/acts/product-section-2019/yq-lottery?utm_content=g_1000042901

原文连接本文为云栖社区原创内容，未经容许不得转载。