为物联网而生:高性能时间序列数据库HiTSDB商业化首发!

摘要: 近日,阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。html

 

近日,阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。算法

 

先跟你们聊一下什么叫时序数据。简单的说,就是时间上分布的一系列数值,关键字是数值,咱们通常认为的时序数据是什么时间发生了什么事情,可是在时序数据这个领域里定义的时序数据全都是跟数值有关的。也就是说,若是只是一个带有时间戳的一条数据并不能叫作时序数据。举个例子,好比像我早上8点半上楼吃了个饭这条记录,至关于一个日志,这个自己不构成一个时序数据,可是若是某个餐厅早上8点半同时有50我的在那里吃饭,这个50加上餐厅的信息再加这个时间点就构成了一个时序数据。数据库

 

单值与多值建模服务器

 

实际上通用的建模方式有两种,其中的一种是单值。实际上咱们是针对不一样的东西来建模的,多值的模型是针对数据源建模,咱们每一行数据针对的是一个数据源,它的三个被测量的指标在同一列上,因此每个数据源,数据的来源在每个时间点上都有一行,这就是多值的模型。网络

还有一种模型是单值的模型,单值的模型咱们是把它测量的精确到时间序列上,也就在时间序列的每一个时间点上只有一个值,因此是个单值,也就是说对于多值模型来讲它每一行数据对应的是一个数据源,对于单值模型来讲它对应的是一个时间序列,实际上多值模型对应的是一个数据源在一个时间点上就会产生一行数据,而在单值模型里一个数据源上面的每个指标会产生一行数据。架构

 

什么是插值和降精度?性能

 

如上前面所讲,时间序列会分布在一些时间线上,数据源和测量指标肯定了的话,时间序列是随着时间轴日后分布的,实际上它的采样在一个典型的场景里是固定时间间隔的,它中间一些点作处理会牵扯到插值和降精度处理。好比说中间丢失了一个点,比较简单的方法是中间插一个值,经常使用的方法是线性插值,就是在时间轴上画一个直线中间的点就插出来了。大数据

另外一个叫降精度,例如咱们有个按秒采样的时间序列,显示时间范围是一年的数据,为了便于查看,须要把时间精度降到一天。好比咱们只选这一天中的最大值或者最小值或者平均值,做为这一天的气温,也就是最高气温,最低气温和平均气温的概念。用算法或者把时序数据转换成精度比较低的时间序列以便于观察和理解它,这是在传统数据库里没有的一种方式。网站

再一个就是数据聚合,也是很是典型的基于设备的数据统计,好比这里有不少设备指标数据构成的时间线,时序数据的聚合是在时间线的维度上的,而不是按点的,在处理平时处理的空间聚合的话,通常是把不少数据点按照一个个聚合起来,而实际数据处理的时候通常会把它抽象的点连成线就是刚才看的时间序列,每一个数据源在一个测量值上会产生一行时间线,加上时间序列,若是是根据某一个维度上的测量的话,在同一维度就能调成线就把时间序列处理出来了。阿里云

 

举个例子, 智慧园区的业务系统须要查看一个楼宇的某盏灯的耗电量状况,那么就须要把这盏灯的耗电量数据从数据库中查询并展现出来,若是因为采集的故障致使某个时刻用电量数据缺失,那么须要经过特定算法来近似的估算出这个数据,这个计算补全数据的过程就是“插值”。而当须要查看这盏灯一年的耗电趋势状况时,一般只须要计算出每一天的耗电量,进行查看,而不须要把每个时刻采集的数据所有输出出来,这个将原始精度转化为业务需求精度的过程就是“降精度”。而若是要统计某一个楼层或者楼宇的用耗电量总体趋势数据时,就须要将全部统计范围内的灯具的耗电量数据作“合并统计”,这个相似的统计过程就是Aggregation。

 

时序数据降精度是在时间序列维度上作的。对于关系数据库来讲,首先要把时间序列维度拿出来,而后在中间插值,而实际上 SQL 是按点来操做的。因此若是要作降精度的话,须要用一个值查询把整条时间序列上的数据查询出来,插好值以后才能作时间序列之间的聚合,那么服务和 SQL 服务器之间的吞吐量很是大,至关于 SQL 只是一个数据通道须要把全部值都拉出来运算一遍,这个查询性能会很是慢,而且每一次计算都须要从新拉取数据,相对 HiTSDB,这个性就能差了几百倍,在空间聚合 Aggregator 支持也很是全面,支持 ADhoc 查询,HiTSDB 经过引入倒排索引和数据分片提高检索时间序列的效率,经过并行计算架构,总体计算性能提高很是明显。

 

HiTSDB高压缩技术 存储成本下降90%

 

物联网领域是最典型的时序数据产生和应用的场景,这些场景具有一些特征,技术数据量特别大,好比某个智能设备的温度传感器,首先第一是时间序列会持续的产生大量的数据,持续的产生什么意思呢?由于咱们每每对时间序列来讲是定时采样功能,若是每秒测量一次,一天是86400秒,若是24小时都要用,平均每个传感器仪表在一个时间点上产生一个数据点,一个仪表就产生86400个数据,若是把全国各个县都布一个采样点,那一天数据就上亿了,实际上你们做为气象采样来讲每个县对应一个温度传感器显然有点不够的,可能咱们是每个街道甚至每一个小区都有这样的传感器,那么这个数据加起来其实是一个很是惊人的数字。

 

利用HiTSDB 的高压缩技术,相比较 OpenTSDB 提高10倍左右,一般原始时序数据的大小在 200-300 Byte,OpenTSDB 单数据点消耗约20 Byte,HiTSDB 单数据点消耗约 2Byte,经过 HiTSDB 能够节约90%以上的数据库存储成本。

 

对于物联网平台企业能够利用HiTSDB 和阿里云的产品能力基于以下的架构构建云上的物联网平台。

HiTSDB 除了在云上提供高效的时序数据服务能力,企业能够也能够利用HiTSDB 结合阿里云工业大脑和城市大脑的大数据方案实现智能制造生产和智慧城市。 利用HiTSDB 的“边缘+ 中心”的解决方案,能够知足工业物联网IoT尤为是电力能源行业的数据边缘端本地存储分析,逐级数据上报 ,以及网络不稳态的数据数据稳定上报和中心端的全局设备数据监控分析,打通智慧大脑的数据通道。

HiTSDB商业化首发期间,官网推出85折优惠活动。更多详情点击【HiTSDB官方网站

 

原文地址

阅读更多干货好文,请关注扫描如下二维码:

相关文章
相关标签/搜索