时序数据库InfluxDB

1、什么是InfluxDB?python

InfluxDB是一款用Go语言编写的开源分布式时序、事件和指标数据库,无需外部依赖。该数据库如今主要用于存储涉及大量的时间戳数据,如DevOps监控数据,APP metrics, loT传感器数据和实时分析数据。git

InfluxDB特征:github

– 无结构(无模式):能够是任意数量的列(tags)。web

– 能够设置metric的保存时间。redis

– 支持与时间有关的相关函数(如min、max、sum、count、mean、median等),方便统计。算法

– 支持存储策略:能够用于数据的删改(influxDB没有提供数据的删除与修改方法)。shell

– 支持连续查询:是数据库中自动定时启动的一组语句,和存储策略搭配能够下降InfluxDB的系统占用量。数据库

– 原生的HTTP支持,内置HTTP API。json

– 支持相似SQL语法。后端

– 支持设置数据在集群中的副本数。

– 支持按期采样数据,写入另外的measurement,方便分粒度存储数据。

– 自带web管理界面,方便使用(登入方式:http://< InfluxDB-IP >:8083)。

– 最关键的一点,也是我采用的缘由,支持Grafana画图展现。

PS:有了InfluxDB+Grafana后,你就能够写一些简单的程序了,能够只负责写后端逻辑部分,数据均可以存入InfluxDB,而后经过Grafana展现出来。

2、InfluxDB基本概念

在具体的讲解influxdb的相关操做以前先说说influxdb的一些专有名词,这些名词表明什么。先看下面一段Influxdb中的表信息。

InfluxDB是时序数据库,因此怎么都绕不开时间,第一纵列time存储着时间戳,而时间戳是与数据进行关联,这样才能将时间和数据进行展现。

InfluxDB名词

database:数据库,根关系型数据库一个概念。

measurement:数据库中的表,就是关系型数据库中的表。

points:表里面的一行数据,就是关系型数据库中的记录。

InfluxDB中独有的一些概念

Point由时间戳(time)、标签(tags)和值(field)组成。

time:每条数据记录的时间,也是数据库自动生成的主索引。

tags:各类有索引的属性。

fields:各类记录的值。

tag set:tag在InfluxDB中会按照字典序排序,不论是tag-key仍是tag-value,只要不一致就分别属于两个tag set,例如hostname=server01,device=/data和hostname=server02,device=/data就是两个不一样的tag set。

还有三个重要的名词:Series、Retention policy和Shard

Series:至关因而InfluxDB中一些数据的集合,在同一个database中,retention policy、measurement、tag sets彻底相同的数据同属于一个series,同一个series的数据在物理上会按照时间顺序排列存储在一块儿。

Retention policy:存储策略,用于设置数据保留的时间,每一个数据库刚开始会自动建立一个默认的存储策略autogen,数据保留时间为永久,以后用户能够本身设置,例如保留最近2小时的数据。插入和查询数据时若是不指定存储策略,则使用默认存储策略,且默认存储策略能够修改。InfluxDB会按期清除过时的数据。

Shard:在InfluxDB中是一个比较重要的概念,它和Retention policy相关联。每个存储策略下会存在许多shard,每个shard存储一个指定时间段内的数据,而且不重复,例如7点-8点的数据落入shard0中,8点-9点的数据则落入shard1中。每个shard都对应一个底层的tsm存储引擎,有独立的 cache、wal、tsm file。

TSM存储引擎主要由几个部分组成:cache、wal、tsm file、compactor。

玩转时序数据库InfluxDB

Cache:至关因而LSM Tree中的memtabl。插入数据时,其实是同时往cache与wal中写入数据,能够认为cache是wal文件中的数据在内存中的缓存。当InfluxDB启动时,会遍历全部的wal文件,从新构造cache,这样即便系统出现故障,也不会致使数据的丢失。cache中的数据并非无限增加的,有一个maxSize参数用于控制当cache中的数据占用多少内存后就会将数据写入tsm文件。若是不配置的话,默认上限为25MB,每当cache中的数据达到阀值后,会将当前的cache进行一次快照,以后清空当前cache中的内容,再建立一个新的wal文件用于写入,剩下的wal文件最后会被删除,快照中的数据会通过排序写入一个新的tsm文件中。

WAL:WAL文件的内容与内存中的cache相同,其做用就是为了持久化数据,当系统崩溃后能够经过wal文件恢复尚未写入到tsm文件中的数据。

TSM File:单个tsm file大小最大为 2GB,用于存放数据。

Compactor:Compactor组件在后台持续运行,每隔1秒会检查一次是否有须要压缩合并的数据。

主要进行两种操做,一种是cache中的数据大小达到阀值后,进行快照,以后转存到一个新的tsm文件中。另一种就是合并当前的tsm文件,将多个小的tsm文件合并成一个,使每个文件尽可能达到单个文件的最大大小,减小文件的数量,而且一些数据的删除操做也是在这个时候完成。

3、InfluxDB目录与文件

InfluxDB的数据存储主要有三个目录,默认状况下是meta, wal以及data三个目录。

meta用于存储数据库的一些元数据,meta目录下有一个meta.db文件。

wal目录存放预写日志文件,以.wal结尾。

data目录存放实际存储的数据文件,以.tsm结尾。

上面几张图中,test为数据库名,autogen为存储策略名称,再下一层目录中的以数字命名的目录是shard的ID值。

存储策略下有一个shard,ID为22,shard存储了某一个时间段范围内的数据。再下一级的目录则为具体的文件,分别是.wal和.tsm结尾的文件。

4、InfluxDB安装配置

1)安装配置

2)相关文件

3)开启Web

influxdb提供的简单web管理页面,能够用来操做influxdb,默认没有开启,若是想开启须要修改配置文件中[admin]部分,以下:

4)配置文件

[meta] – meta相关配置

dir:meta数据存放目录,默认值:/var/lib/influxdb/meta。

retention-autocreate:用于控制默认存储策略,数据库建立时,会自动生成autogen的存储策略,默认值:true。

logging-enabled:是否开启meta日志,默认值:true。

[data] – tsm1引擎配置

dir:最终数据(TSM文件)存储目录,默认值:/var/lib/influxdb/data。

wal-dir:预写日志存储目录,默认值:/var/lib/influxdb/wal。

query-log-enabled:是否开启tsm引擎查询日志,默认值:true。

cache-max-memory-size:用于限定shard最大值,大于该值时会拒绝写入,默认值:DefaultCacheMaxMemorySize = 1024 * 1024 * 1024 // 1GB。

cache-snapshot-memory-size:用于设置快照大小,大于该值时数据会刷新到tsm文件,默认值:DefaultCacheSnapshotMemorySize = 25 * 1024 * 1024 // 25MB。

cache-snapshot-write-cold-duration:tsm1引擎snapshot写盘延迟,默认值:DefaultCacheSnapshotWriteColdDuration = time.Duration(10 * time.Minute)。

compact-full-write-cold-duration:tsm文件在压缩前能够存储的最大时间,默认值:DefaultCompactFullWriteColdDuration = time.Duration(4 * time.Hour)。

max-series-per-database:限制数据库的级数,该值为0时取消限制,默认值:DefaultMaxSeriesPerDatabase = 1000000,measurement, tag set, retention policy相同的数据集合算作一个serie,级数算法示例以下:假设monitor1这个measurement有两个tags:id 和 name id 的数量为10,name的数量为 100,则 series 基数为 10 * 100 = 1000。

max-values-per-tag:一个tag最大的value数,0取消限制,默认值:DefaultMaxValuesPerTag = 100000。

trace-logging-enabled:是否开启trace日志,默认值:false。

[coordinator] – 查询管理的配置选项

write-timeout:写操做超时时间,默认值: 10s。

max-concurrent-queries:最大并发查询数,0无限制,默认值: 0。

query-timeout:查询操做超时时间,0无限制,默认值:0s。

log-queries-after:慢查询超时时间,0无限制,默认值:0s。

max-select-point = 0:SELECT语句能够处理的最大点数(points),0无限制,默认值:0。

max-select-series = 0:SELECT语句能够处理的最大级数(series),0无限制,默认值:0。

max-select-buckets = 0:SELECT语句能够处理的最大”GROUP BY time()”的时间周期,0无限制,默认值:0。

[retention] – 旧数据的保留策略

enabled:是否启用该模块,默认值 :true。

check-interval:检查时间间隔,默认值 :”30m0s”。

[shard-precreation] – 分区预建立

enabled:是否启用该模块,默认值 : true。

check-interval:检查时间间隔,默认值 :”10m0s”。

advance-period:预建立分区的最大提早时间,默认值 :”30m0s”。

[admin] – influxdb提供的简单web管理页面

enabled:是否启用该模块,默认值:false。

bind-address:绑定地址,默认值:”:8083″。

https-enabled:是否开启https ,默认值:false。

https-certificate:https证书路径,默认值:”/etc/ssl/influxdb.pem”。

[monitor] – 这一部分控制InfluxDB自有的监控系统。 默认状况下,InfluxDB把这些数据写入_internal数据库,若是这个库不存在则自动建立。 _internal 库默认的retention策略是7天,若是你想使用一个本身的retention策略,须要本身建立。

store-enabled:是否启用该模块,默认值 :true。

store-database:默认数据库:”_internal”。

store-interval:统计间隔,默认值:”10s”。

[subscriber] – 控制Kapacitor接受数据的配置

enabled:是否启用该模块,默认值 :true。

http-timeout:http超时时间,默认值:”30s”。

insecure-skip-verify:是否容许不安全的证书,当测试本身签发的证书时比较有用。默认值:false。

ca-certs:设置CA证书,无默认值。

write-concurrency:设置并发数目,默认值:40。

write-buffer-size:设置buffer大小,默认值:1000。

[http] – influxdb的http接口配置

enabled:是否启用该模块,默认值 :true。

bind-address:绑定地址,默认值:”:8086″。

auth-enabled:是否开启认证,默认值:false。

log-enabled:是否开启日志,默认值:true。

write-tracing:是否开启写操做日志,若是置成true,每一次写操做都会打日志,默认值:false。

pprof-enabled:是否开启pprof,默认值:true。

https-enabled:是否开启https,默认值:false。

https-certificate:设置https证书路径,默认值:”/etc/ssl/influxdb.pem”。

https-private-key:设置https私钥,无默认值。

max-row-limit:配置查询返回最大行数,默认值:10000。

max-connection-limit:配置最大链接数,0无限制,默认值:0。

shared-secret:用于JWT签名的共享密钥,无默认值。

realm:配置JWT realm,默认值: “InfluxDB”。

unix-socket-enabled:是否使用unix-socket,默认值:false。

bind-socket:unix-socket路径,默认值:”/var/run/influxdb.sock”。

[[graphite]] – graphite相关配置,具体参考:https://github.com/influxdata/influxdb/blob/master/services/graphite/README.md

enabled:是否启用该模块,默认值 :false。

bind-address:绑定地址,默认值:”:2003″。

database:数据库名称,默认值:”graphite”。

retention-policy:存储策略,无默认值。

protocol:协议,默认值:”tcp”。

batch-size:批量size,默认值:5000。

batch-pending:配置在内存中等待的batch数,默认值:10。

batch-timeout:超时时间,默认值:”1s”。

consistency-level:一致性级别,默认值:”one”。

separator:多个measurement间的链接符,默认值: “.”。

udp-read-buffer = 0:udp读取buffer的大小,0表示使用操做系统提供的值,若是超过操做系统的默认配置则会出错。 该配置的默认值:0。

[[collectd]] – collectd相关配置,具体参考:https://github.com/influxdata/influxdb/tree/master/services/collectd

enabled:是否启用该模块,默认值 :false。

bind-address:绑定地址,默认值: “:25826″。

database:数据库名称,默认值:”collectd”。

retention-policy = “”:存储策略,无默认值。

batch-size:默认值:5000。

batch-pending:默认值:10。

batch-timeout:默认值:”10s”。

read-buffer:udp读取buffer的大小,0表示使用操做系统提供的值,若是超过操做系统的默认配置则会出错。默认值:0。

typesdb:路径,默认值:”/usr/share/collectd/types.db”。

[[opentsdb]] – opentsdb配置

enabled:是否启用该模块,默认值:false。

bind-address:绑定地址,默认值:”:4242″。

database:默认数据库:”opentsdb”。

retention-policy:存储策略,无默认值。

consistency-level:一致性级别,默认值:”one”。

tls-enabled = false:是否开启tls,默认值:false。

certificate:证书路径,默认值:”/etc/ssl/influxdb.pem”。

batch-size:默认值:1000。

batch-pending:默认值:5。

batch-timeout:超时时间,默认值:”1s”。

log-point-errors:出错时是否记录日志,默认值:true。

[[udp]] – udp配置

enabled:是否启用该模块,默认值:false。

bind-address:绑定地址,默认值:”:8089″。

database:数据库名称,默认值:”udp”。

retention-policy:存储策略,无默认值。

batch-size:默认值:5000。

batch-pending:默认值:10。

read-buffer:udp读取buffer的大小,0表示使用操做系统提供的值,若是超过操做系统的默认配置则会出错。 该配置的默认值:0。

batch-timeout:超时时间,默认值:”1s”。

precision:时间精度,无默认值。

[continuous_queries]

log-enabled:是否开启日志,默认值:true。

enabled:是否开启CQs,默认值:true。

run-interval:时间间隔,默认值:”1s”。

5、InfluxDB基本操做

1)用户管理

能够直接在web管理页面作操做,也能够命令行。

3)数据库与表的操做

能够直接在web管理页面作操做,固然也能够命令行。

4)普通查询

那么话说,InfluxDB的查询语法是很给力的,很像SQL语句。下面一一介绍下,经常使用的InfluxDB里面经常使用的SQL语句。 话说InfluxDB给与的搜索条件仍是很丰富的,有时间分析下他落地在leveldb的数据结构。

下面再说下数据的汇聚,聚合啥的。

5)连续查询(Continuous Queries)

InfluxDB的连续查询是在数据库中自动定时启动的一组语句,语句中必须包含SELECT关键词和GROUP BY time()关键词。

InfluxDB会将查询结果放在指定的数据表中。目的:使用连续查询是最优的下降采样率的方式,连续查询和存储策略搭配使用将会大大下降InfluxDB的系统占用量。并且使用连续查询后,数据会存放到指定的数据表中,这样就为之后统计不一样精度的数据提供了方便。

新建连续查询

样例:

在test库中新建了一个名为redis_30m的连续查询,每三十分钟取一个connected_clients字段的平均值、中位值、最大值、最小值redis_clients_30m表中。使用的数据保留策略都是default。

显示或删除全部已存在的连续查询

6)数据保存策略(Retention Policies)

InfluxDB是没有提供直接删除数据记录的方法,可是提供数据保存策略,主要用于指定数据保留时间,超过指定时间,就删除这部分数据。

6.1 查看当前数据库Retention Policies

6.2 建立新的Retention Policies

rp_name:策略名;

db_name:具体的数据库名;

3w:保存3周,3周以前的数据将被删除,influxdb具备各类事件参数,好比:h(小时),d(天),w(星期);

replication 1:副本个数,通常为1就能够了;

default:设置为默认策略;

6.3 修改Retention Policies

6.4 删除Retention Policies

 

6、结合Grafana使用

1)安装配置Grafana

CentOS系列使用YUM安装

或者

Systemd方式启动Grafana

启动Granfa以后,进程名称为grafana-server。将会默认使用grafana用户和组运行Granfa进程。默认会开启HTTP的3000端口。启动服务以后直接直接在浏览器访问http://IP:3000就会出现以下界面,默认帐号和用户名为admin/admin,在/etc/grafana/grafana.ini配置文件中可修改。

详细:Grafana安装配置介绍

2)InfluxDB添加用户

3)InfluxDB插入数据

4)Grafana添加IfluxDB为数据源

玩转时序数据库InfluxDB

而后就能够开始画图了。

玩转时序数据库InfluxDB

InfluxDB中的tags能够做为条件,如hostname或device,而field能够做为value。

7、Python操做InfluxDB

1)安装infludb驱动

2)基本操做

InfluxDB中文文档:https://github.com/jasper-zhang/influxdb-document-cn

 

转自: http://www.ywnds.com/?p=10763#comments

相关文章
相关标签/搜索