交通量预测——极端状况下的预测算法

时间 2019-11-06

标签交通量预测极端状况算法繁體版

原文原文链接

1.背景介绍

在高方差时段（如节假日和体育赛事等等）准确的预测交通量，对于异常检测、资源分配、预算规划和其余相关的任务都是相当重要，这些任务有助于网约车大规模优化用户体验，然而，预测这些变量极具挑战性，由于这种极端事件预测取决于天气、城市人口增加和其余致使预测不肯定性的外部因素。近几年来，长短时间记忆网络技术以其端到端建模，易于映入外生变量和自动特征抽取的特色，成为了一种流行的时间序列建模框架。LSTM方法利用多个维度的大量数据，能够对复杂的非线性特征相互做用进行建模，这对于预测极端事件是相当重要的。在Lingxue Zhu和Nikolay Laptev发表在IEEE的一篇论文Deep and Confident Prediction for Time Series at Uber中，介绍一种新的端到端贝叶斯神经网络（BNN）结构，它能在大规模的状况下更精准地预测时间序列结果和不肯定性预测。前端

2.概述

2.1不肯定性预测

首先，咱们用函数python

来表示一个神经网络，其中f表示是网络的结构，用** W**来表示模型参数的集合。在BNN模型中，引入了权重参数的先验，而且模型的目标是去拟合最优的后验分布。好比，高斯先验一般假设：

。而后，咱们进一步数据生成分布定为

。在回归问题中，咱们一般假设：

（其中具备必定的噪声

）。接着，给定N个观测值

和

，贝叶斯推理的目标是找到模型参数的后验分布

。最后给定一个新的数据点

，在经过将后验分布边缘化以后，能够获得预测分布

。其中，方差量化了预测的不肯定性，能够用总方差定律进行分解：

，咱们马上看到方差被分解为两项，

（反映了咱们对模型参数_ W_的规格的不肯定性，被称为模型不肯定性）和

（表示固有的噪声）。对于上述分解公式的一个基本假设是

由相同的过程产生的，可是在实际状况中，每每并不是如此。特别是在异常检测，若是某些时间序列具备不一样寻常的模式，那么会使训练后的模型有很大的不一样。因此，咱们要结合如下三个方面来测量预测的不肯定性：

模型的不肯定性
模型的错误识别
固有噪声

接下来就详细介绍这三个方面。算法

2.1.1模型的不肯定性

模型不肯定性估计的关键就是后验分布 c#

（即贝叶斯推理）。因为非线性所致使的非共轭性，后验分布在神经网络中是极其具备挑战性的。在深度学习中，相似推理的研究已经有了不少，在仔细对比后，咱们选用蒙特卡罗丢失法(MC dropout)来模拟模型的不肯定性。具体算法以下：给定一个新的输入

，而后咱们在每层神经网络上随机抛弃掉一部分输出

，即以必定的几率** p**随机抛弃掉每一个隐藏层单元。而后随机前馈重复B次，获得

。这样就能够把模型的不肯定性近似看为样本方差

（其中

）。近几年来，已经在将最优抛弃率p做为模型参数的一部分进行自适应选择方面有了不少研究，可是这种方法须要去修改训练阶段。实际上，咱们发现模型的不肯定性估计一般在_ p_的合理范围是鲁棒的。

2.1.2模型的错误识别

接下来，咱们要经过BNN模型去解决潜在的模型错误识别的问题。咱们解决这一问题的方法是，在训练数据集中去预测那些具备彻底不一样模式的未知样本时获取的不肯定性，和经过训练一个从时间序列中自动抽取表明性特征编码器来肯定这种不肯定性的来源。在测试时，每个样本的编码效果都将会有助于计算样本集与训练集之间的距离。计算它们之间距离的另外一种方式是，使用一个encoder-decoder框架为全部训练集的时间序列拟合出一个潜在的embedding空间。这样，咱们就能够在这个embedding空间来测量测试样本和训练样本之间的距离。接下来，咱们须要解决的问题就是如何将这种错误识别和模型不肯定性结合起来。在这里，咱们采用了一个方法是，将encoder-decoder网络与一个预测网络链接起来，在推理时将其是为一个大网络，算法如图一所示：网络

图一：用MC dropout算法来近似模型的不肯定性和模型的错误识别上述算法1使用MC dropout算法展现了这样一个推理网络。具体来讲，给定一个输入时间序列

，encoder构造了所学到的embedding向量

，并将其做为特征输入到预测网络_ h_中。在这个前馈过程当中，MC dropout应用于encoder和预测网络的全部层。因此，encoder层重的随机抛弃会智能地去干扰embedding空间中的输入，从而致使潜在的模型错误识别，而且经过预测网络进一步传播。

2.1.3固有噪声

最后，咱们来估计一下固有的噪声架构

。在这个场景下，咱们提出了一种简单但自适应的方法，即经过残差平方和和评估一个独立的验证集来估计噪声水平。具体地说，

是在训练集上拟合好的模型，

是独立的验证集，而后，咱们经过公式

来估计

。注意

是独立于

的。若是咱们进一步假设

是一个真实模型的无偏估计，那么咱们就会有

，其中偏置项是

，而且它会随着训练样本数量的增长而下降，尤为是当训练集样本N趋于∞时偏置项会趋于0。所以，假如模型是无偏的，

就提供了一个对固有噪声水平接近的无偏估计。在样本有限的状况下，

只能高估噪声水平而且趋于更加保守。咱们的BNN模型最终的推理算法结合了固有噪声估计和MC dropout，算法2给出了最终的推理算法，如图二所示：

图二：推理算法结合了固有噪声估计和MC dropout算法

3.实验

该论文中的实验结果，是以lstm网络+全链接为基础产生的。该神经网络的完整结构主要包括两部分：（i）encoder-decoder框架，用于获得时间序列中的自有关系，而且在预训练期间就学习好（ii）预测网络，他的输入来自于encoder-decoder框架所学习到embedding层以及潜在的外部特性（如天气事件等）。这个鲁棒的体系结构以下图三所示：app

图三：完整的体系结构在拟合预测模型以前，咱们首先要进行预训练，以拟合出一个可以从时间序列中抽取有用且具备表明性的embedding的encoder。其目标有两个方向：（i）确保所学习的embedding为预测提供有用的特征；（ii）证实能够在embedding中捕获异常输入，从而进一步传播到预测网络中。

3.1实验数据

这里咱们从kaggle上找到数据集NYC Uber Pickups with Weather and Holidays，这个数据集有不少咱们须要的特征，可是咱们仍是须要对其处理一下，把区域字段合并，将节假日字段改成0-1数字表示，合并出来的数据如图四所示：框架

图四：处理事后的实验数据因为要使用LSTM网络做为一个encoder-decoder框架，因此咱们将上述处理以后的数据读出成时序数据，而后在将其转化为监督问题数据。参考代码：

def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):
    n_vars = 1 if type(data) is list else data.shape[1]
    df = pd.DataFrame(data)
    cols, names = list(), list()
    # input sequence (t-n, ... t-1)
    for i in range(n_in, 0, -1):
        cols.append(df.shift(i))
        names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]
    # forecast sequence (t, t+1, ... t+n)
    for i in range(0, n_out):
        cols.append(df.shift(-i))
        if i == 0:
            names += [('var%d(t)' % (j+1)) for j in range(n_vars)]
        else:
            names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]
    # put it all together
    agg = pd.concat(cols, axis=1)
    agg.columns = names
    # drop rows with NaN values
    if dropnan:
        agg.dropna(inplace=True)
    return agg
复制代码

3.2实验模型

给定一个时间序列 yii

，encoder的LSTM去读取前T个时间戳数据

来构造一个固定维度的embedding状态向量。而后decoder的LSTM根据这个embedding状态向量和

去构造接下来F个时间戳数据

。为了从embedding状态向量中构建接下来的时间戳数据，embedding状态向量必定要包含来自输入时间序列中最具备表明性和意义的元素。在对encoder-decoder结构预处理以后，咱们就将这个结构做为一个能智能提取特征的黑盒。具体来讲，LSTM节点状态被抽取为固定维度的embedding向量。而后，用这个embedding向量做为特征来训练模型去预测接下里几个时间段的数据。在外部特性可用的场景中，能够将这些特性链接到embedding向量并一块儿传递到最终的预测网络。有两个超参数须要被特别说明一下：丢弃率_ P 和迭代次数 B 。对于丢弃率来讲，不肯定性估计在一系列 P 上相对稳定，因此咱们要选择一个在验证集上表现的最好的一个 P_。对于迭代次数来讲，估计的预测不肯定性的标准差是与

成正比。在对不一样迭代次数测量了标准差以后，发现几百次迭代就足以实现稳定的估计。该模型的encoder-decoder框架是由两层LSTM单元构成，分别包含128和32个隐状态，预测网络由三个全链接层组成，分别包含12八、64和16个隐藏单元。咱们的输入样本是使用一个滑动窗口构成的，其中每一个样本都是之前15个小时做为输入，来预测将来一小时的数据。而且对原始数据进行MinMaxScaler标准化，把数据放缩到0～1之间，以减轻指数效应。参考代码：

encoder_inputs = Input(shape=(train_X.shape[1], train_X.shape[2]))

encoder_lstm1 = LSTM((128), return_state=True,return_sequences=True)
encoder_outputs1, state_h1, state_c1 = encoder_lstm1(encoder_inputs)

drop_out1 = Dropout(0.05)

encoder_lstm2 = LSTM((64), return_state=True,return_sequences=False)
encoder_outputs2, state_h2, state_c2 = encoder_lstm2(encoder_outputs1)

drop_out2 = Dropout(0.05)

external_features = Input(shape=(6,))
print(external_features)

dense1 = Dense(128,activation='tanh')
temp = Concatenate(axis=1)([state_c2,external_features])
dense1_output = dense1(temp)

drop_out3 = Dropout(0.05)

dense2 = Dense(64,activation='tanh')
dense2_output = dense2(dense1_output)

drop_out4 = Dropout(0.05)

dense3 = Dense(16,activation='tanh')
dense3_output = dense3(dense2_output)

drop_out5 = Dropout(0.05)

dense4 = Dense(1,activation='tanh')
dense4_output = dense4(dense3_output)
model = Model(inputs=[encoder_inputs,external_features], outputs=dense4_output)
model.compile(loss='mse', optimizer='adam')


## fit network
input_list = []
input_list.append(train_X)
input_list.append(temp_train)
history = model.fit(input_list, train_y, epochs=1000, batch_size=10, validation_data=([test_X,temp_test], test_y), verbose=2,shuffle=False)
复制代码

3.3实验结果

咱们用LSTM模型和这个模型分别来预测咱们的数据，咱们使用前15024个小时的数据做为咱们的训练集合，剩下3024个小时的数据做为咱们的验证集，实验结果如图五（LSTM模型）和图六（论文模型）下：机器学习

图五：LSTM模型预测状况

图六：上述模型预测状况咱们能够看到很明显的看到，LSTM模型预测的效果明显没有该篇文章所展现的论文模型效果好，尤为在峰值预测的时候更为明显，咱们所展现的模型近乎彻底拟合了。

4.总结

这篇文章展现了一种用于Uber不肯定性估计的端到端神经网络结构。利用MC dropout和固有噪声估计，给出了一种为神经网络预测提供不肯定性估计的简单方法，它覆盖率大部分的不肯定性因素。这个框架的一个关键特性在于它不用修改底层架构的状况下适用于任何神经网络。用这种提出的不肯定性估计方法来对特殊事件（如假日，体育赛事，天气等等）的不肯定度进行了估计，提升了异常检测的精度。对于一些高不肯定性事件中，咱们能够对内部异常检测模型的置信区间进行调整，准确度能相应的提高，这有时能够为实际运营带来很大的提高。项目源码地址：https://momodel.cn/explore/5d3fb3121afd943289223b91?&tab=1&type=app

5.参考资料

论文：Deep and Confident Prediction for Time Series at Uber论文：Long short-term memory 博客：Engineering Uncertainty Estimation in Neural Networks for Time Series Prediction at Uber论文：Learning phrase representations using rnn encoder-decoder for statistical machine translation博客：深度学习如何估计模型不肯定性(epistemic uncertainty)

关于咱们

Mo（网址：momodel.cn）是一个支持 Python 的人工智能在线建模平台，能帮助你快速开发、训练并部署模型。

Mo 人工智能俱乐部 是由网站的研发与产品设计团队发起、致力于下降人工智能开发与使用门槛的俱乐部。团队具有大数据处理分析、可视化与数据建模经验，已承担多领域智能项目，具有从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析与人工智能技术，并以此来促进数据驱动的科学研究。

目前俱乐部每周六在杭州举办以机器学习为主题的线下技术沙龙活动，不按期进行论文分享与学术交流。但愿能汇聚来自各行各业对人工智能感兴趣的朋友，不断交流共同成长，推进人工智能民主化、应用普及化。