InfluxDB概念和基本操做

时间 2019-11-08

标签 influxdb 概念基本繁體版

原文原文链接

InfluxDB基本概念

数据格式

在 InfluxDB 中，咱们能够粗略的将要存入的一条数据看做一个虚拟的 key 和其对应的 value(field value)。格式以下：redis

cpu_usage,host=server01,region=hn-zhengzhou value=0.64 1434055562000000000

虚拟的 key 包括如下几个部分： database, retention policy, measurement, tag sets, field name, timestamp。shell

database:数据库名，在InfluxDB中，能够建立多个database，不一样数据库中的数据文件是隔离的，存放在不一样磁盘目录中。
retention policy:存储策略，用于设置数据保留的时间每一个数据库刚开始会自动建立一个默认的存储策略 autogen，数据保留时间为永久，以后用户能够本身设置，例如保留最近2小时的数据。插入和查询数据时若是不指定存储策略，则使用默认存储策略，且默认存储策略能够修改。InfluxDB 会按期清除过时的数据
measurement:对应关系数据库中的表，测量指标名，例如 cpu_usage 表示 cpu 的使用率。
tag sets: tags 在 InfluxDB 中会按照字典序排序，不论是 tagk 仍是 tagv，只要不一致就分别属于两个 key，例如 host=server01,region=hn-zhengzhou 和 host=server02,region=hn-zhengzhou 就是两个不一样的 tag set。
tag--标签，在InfluxDB中，tag是一个很是重要的部分，表名+tag一块儿做为数据库的索引，是“key-value”的形式。
field name: 例如上面数据中的 value 就是 fieldName，InfluxDB 中支持一条数据中插入多个 fieldName，这实际上是一个语法上的优化，在实际的底层存储中，是看成多条数据来存储
timestamp: 每一条数据都须要指定一个时间戳，在 TSM 存储引擎中会特殊对待，觉得了优化后续的查询操做。

Point

points至关于关系数据库中的行，Point由时间戳（time）、数据（field）、标签（tags）组成。数据库

Series

Series 至关因而 InfluxDB 中一些数据的集合，在同一个 database 中，retention policy、measurement、tag sets 彻底相同的数据同属于一个 series，同一个 series 的数据在物理上会按照时间顺序排列存储在一块儿。优化

Shard

Shard 在 InfluxDB 中是一个比较重要的概念，它和 retention policy 相关联。每个存储策略下会存在许多 shard，每个 shard 存储一个指定时间段内的数据，而且不重复，例如 7点-8点的数据落入 shard0 中，8点-9点的数据则落入 shard1 中。每个 shard 都对应一个底层的 tsm 存储引擎，有独立的 cache、wal、tsm file。命令行

目录与文件结构

InfluxDB 的数据存储主要有三个目录。默认状况下是 meta, wal 以及 data 三个目录。meta 用于存储数据库的一些元数据，meta 目录下有一个 meta.db 文件。wal 目录存放预写日志文件，以 .wal 结尾。data 目录存放实际存储的数据文件，以 .tsm 结尾。日志

InfluxDB基本操做

InfluxDB提供多种操做方式：code

客户端命令行方式
HTTP API接口
各语言API库
基于WEB管理页面操做

客户端命令行方式操做

进入命令行

influx
Connected to http://localhost:8086 version 1.2.4
InfluxDB shell version: 1.2.4

显示数据库

show databases;

新建数据库

create database cpu_info;

使用制定数据库

use cpu_info;

删除数据库

drop database cpu_info;

在InfluxDB当中，并无表（table）这个概念，取而代之的是MEASUREMENTS，MEASUREMENTS的功能与传统数据库中的表一致，所以咱们也能够将MEASUREMENTS称为InfluxDB中的表server

显示全部表

show measurements

新建表

InfluxDB中没有显式的新建表的语句，只能经过insert数据的方式来创建新表。排序

insert disk_free,hostname=server01 value=442221834240i

其中 disk_free 就是表名，hostname是索引（tag），value=xx是记录值（field），记录值能够有多个，系统自带追加时间戳。或者添加数据时，本身写入时间戳索引

insert disk_free,hostname=server01 value=442221834240i 1435362189575692182

删除表

drop measurement disk_free

数据保存策略（Retention Policies)

influxDB是没有提供直接删除数据记录的方法，可是提供数据保存策略，主要用于指定数据保留时间，超过指定时间，就删除这部分数据。

查看当前数据库Retention Policies

show retention policies on cpu_info;
name    duration shardGroupDuration replicaN default
----    -------- ------------------ -------- -------
autogen 0s       168h0m0s           1        true

建立新的Retention Policies

create retention policy "rp_name" on "db_name" duration 3w replication 1 default

rp_name：策略名；
db_name：具体的数据库名；
3w：保存3周，3周以前的数据将被删除，influxdb具备各类事件参数，好比：h（小时），d（天），w（星期）；
replication 1：副本个数，通常为1就能够了；
default：设置为默认策略

修改Retention Policies

alter retention policy "rp_name" on "db_name" duration 30d default

删除Retention Policies

drop retention policy "rp_name" on "db_name"

连续查询（Continuous Queries）

InfluxDB的连续查询是在数据库中自动定时启动的一组语句，语句中必须包含 SELECT 关键词和 GROUP BY time() 关键词。InfluxDB会将查询结果放在指定的数据表中。

使用连续查询是最优的下降采样率的方式，连续查询和存储策略搭配使用将会大大下降InfluxDB的系统占用量。并且使用连续查询后，数据会存放到指定的数据表中，这样就为之后统计不一样精度的数据提供了方便。

新建连续查询语法以下：

CREATE CONTINUOUS QUERY <cq_name> ON <database_name>
[RESAMPLE [EVERY <interval>] [FOR <interval>]]
BEGIN SELECT <function>(<stuff>)[,<function>(<stuff>)] INTO <different_measurement>
FROM <current_measurement> [WHERE <stuff>] GROUP BY time(<interval>)[,<stuff>]
END

样例：

CREATE CONTINUOUS QUERY wj_30m ON shhnwangjian BEGIN SELECT mean(connected_clients), MEDIAN(connected_clients), MAX(connected_clients), MIN(connected_clients) INTO redis_clients_30m FROM redis_clients GROUP BY ip,port,time(30m) END

在shhnwangjian库中新建了一个名为 wj_30m 的连续查询，每三十分钟取一个connected_clients字段的平均值、中位值、最大值、最小值 redis_clients_30m 表中。使用的数据保留策略都是 default。

显示全部已存在的连续查询

SHOW CONTINUOUS QUERIES

删除Continuous Queries

DROP CONTINUOUS QUERY <cq_name> ON <database_name>