时间序列数据是一个物体或多个物体随着时间不断产生的数值序列。好比:从智能电表中得到月电度使用量;每日股票的价格和交易量;ECG(心电图);地震仪,网络性能数据等等。时间序列数据必定基于时间顺序,这个顺序是全部时间分析算法的基础。IBM Streams时间序列工具包(TimeSeries Toolkit),能够用来预处理、分析和建模时间序列数据。css
在IBM Streams里,时间序列数据有三种主要类型的处理方法:html
- 数据预处理:包括读取、修复、条件化数据。
- 数据分析:包括分析时间序列数据的内在信息。好比:对时间序列数进行计算统计信息和关联,解析和转换.
- 数据建模:包括时间序列模型的建立以及使用模型来预测或回归。
这个工具包还提供一系列函数来自动生成以测试和验证为用途的时间序列数。如下对该工具包的具体功能:算法
1. 分析模块具备如下Operator(对时间序列数据流进行连续运算)网络
- AnomalyDetector异常检测
- CrossCorrelate2交叉关联(滑动点乘或滑动内乘),用于测量两个时间序列的类似度
- CrossCorrelateMulti用于模式识别,两个或多个时间序列。
- DSPFilter2数字信号处理(DSP)的过滤操做算法执行对输入时间序列的数字滤波操做。数字滤波是一个广泛的技术使用,以提升或下降的时间序列的某些特性。它可用于长度不能计数的数据处理,例如,数据平滑化,趋势,加强,放大,和频率解析。
- DSPFilterFinite同上,用于有限长度的数据处理。
- DWT2离散小波变换
- Distribution 四位分布图quartile distribution
- FFT傅里叶变换
- FunctionEvaluator对时间序列中每一个值进行计算
- Normalize计算均值和方差,零均值和单位方差
- PSAX分段聚合近似Piecewise Aggregate Approximation
- STDseasonal trend decomposition 季节趋势分解

2. 分析模块具备如下函数(对单个时间序列值进行运算)jsp
- convolve,laggedConvolve卷积运算
- crosscorrelate,laggedCrosscorrelate交叉关联
- rms方根均值
3. 距离模块具备如下函数(对单个时间序列值进行运算)函数
- dtw动态时间规整dynamic time warping (DTW)
- dtw_itakura Itakura Parallelogram DTW
- dtw_sakoe_chiba Sakoe-Chiba Band based DTW
- lcss longest common subsequence (LCSS)最长公共子序列
- lpNorm Lp范式
4. 数据生成模块具备如下函数Operator(自动生成时间序列数据流)工具
5. 数据生成模块具备如下函数性能
- generate_pulsetrain_wave
- generate_sawtooth_wave
- generate_sine_wave
- generate_square_wave
- generate_triangular_wave
6. 建模模块具备如下函数Operator((对时间序列数据流进行连续运算)学习
- ARIMA2自回归积分滑动平均模型
- AutoForecaster2时间序列值自动预报
- FMPFilter自适应褪色记忆多项式滤波器,用于跟踪、平滑、离群值、异常检测
- GAMLearner广义可加模型
- GAMScorer利用广义可加模型打分
- GMM混合高斯模型,用于几率估计和离群值、异常值检测
- HoltWinters2三次指数平滑法,用于长期预报
- KMeansClusteringKMeans聚类分析
- Kalman卡尔曼滤波器,用于跟踪、平滑和自适应时间序列数据。
- LPC线性预测编码
- RLSFilter递归最小二乘(RLS),预测
- VAR2,Granger因果关系算法,用于近期预测、异常检测。
- IncrementalInterpolate增量插补,计算遗漏值
- ReSample重采样
- TSWindowing窗函数,包括 Hamming, Hann, Blackman, Cosine, 和Triangle
Streams TimeSeries 工具包经过许多操做符进行了完善,可以创建预报、跟踪、回归和预测模型。在一些真实场景中,输入时间序列可能更改它的频率范围或者可能不断形成干扰,或者开始丢失数据。使用这些质量糟糕的数据来构建模型可能致使糟糕的性能。所以,在数据质量降低时,必须执行从新构建模型或暂停更新模型参数的过程。而在运行时这么作是一大挑战。测试
TimeSeries 工具包的建模操做符经过使用一个控制端口来接受特定的控制信号,促进了模型的再培训、暂停或恢复。一旦在输入数据中检测到异常或变动,就能够向建模操做符发送控制信号,让其更改其行为。可是,这个控制信号应与所监视的数据同步,不然会致使模型中异常数据泛滥。例如,控制信号的细微延迟可能致使对坏数据进行模型培训。在流环境中,控制这一延迟很是棘手,由于没法保证控制信号和数据在操做符之间的移动速度。
能够考虑预报某个区域的电力使用状况的示例。在模型构建周期中,必须忽略小电力故障,不然可能在预报期间产生失真的结果。小故障或超出范围的数据须要丢弃,控制端口特性可帮助实现此目的。Streams能够将控制信号的检测和提交与用于模型学习的数据进行同步。
截止时间:2016年11月30日
更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>
详情请咨询在线客服!
客服热线:023-66090381