(转)利用Auto ARIMA构建高性能时间序列模型(附Python和R代码)

转自: python

 

原文标题:Build High Performance Time Series Models using Auto ARIMA in Python and R算法

      做者:AISHWARYA SINGH;翻译:陈之炎;校对:丁楠雅函数

 

原文连接: https://www.analyticsvidhya.com/blog/2018/08/auto-arima-time-series-modeling-python-r/性能

 

  

 

简介学习

想象你如今有一个任务:根据已有的历史数据,预测下一代iPhone的价格,可以使用的特征包括季度销售、月度支出以及苹果资产负债表上的一系列内容。做为一名数据科学家,你会把这个问题归类为哪一类问题?固然是时间序列建模。测试

从预测产品销售到估算家庭用电量,时间序列预测是任何数据科学家都应该知道——哪怕不是熟练掌握——的核心技能之一。你可使用多种不一样的方法进行时间序列预测,咱们将在本文中讨论Auto ARIMA,它是最为有效的方法之一。ui

首先,咱们来了解一下ARIMA的概念,而后再进入正题——Auto ARIMA。为了巩固概念,咱们将使用一个数据集,并用Python和R实现它。spa

目录翻译

1、什么是时间序列?3d

2、时间序列预测的方法

3、ARIMA简介

4、ARIMA实现步骤

5、为何须要Auto ARIMA?

6、用Auto ARIMA实现案例(航空乘客数据集)

7、Auto ARIMA如何选择参数?

若是你熟悉时间序列及其经常使用方法(如移动平均、指数平滑和ARIMA),则能够直接跳到第4节。对于初学者,请从下面这一节开始,内容包括对时间序列和各类预测方法的简要介绍。

1、什么是时间序列?

在咱们学习如何处理时间序列数据以前,首先应理解什么是时间序列,以及它与其余类型的数据的区别。时间序列的正式定义以下:它是一系列在相同时间间隔内测量到的数据点

简言之,时间序列是指以固定的时间间隔记录下的特定的值,时间间隔能够是小时、天天、每周、每10天等等。时间序列的特殊性是:该序列中的每一个数据点都与先前的数据点相关。咱们经过下面几个例子来更清楚地理解这一点。

  • 例1:

假设你从某公司得到了一个贷款人员的数据集(以下表所示)。你认为每一行都与前面的行相关吗?固然不是!一我的的贷款金额取决于他的经济情况和须要(可能还有其余因素,如家庭规模等,但为了简单起见,咱们只考虑收入和贷款类型)。此外,这些数据不是在特定时间间隔内收集的,它仅与公司什么时候收到贷款申请相关。

  • 例2:

再举一个例子。假设你有一个数据集,其中包含天天空气中的二氧化碳水平(下面是截图)。那么能够经过过去几天的数值来预测次日的二氧化碳水平吗?固然能够。若是你观察到的数据是天天记录下来的,那么,时间间隔即是恒定的(24小时)。

如今你已经有了直觉,第一个例子是简单的回归问题,而第二个例子是时间序列问题。虽然这里的时间序列问题也能够用线性回归来解决,但这并非最好的方法,由于它忽略了这些值与全部相对过去值之间的关系。下面,咱们来了解一下解决时间序列问题的一些经常使用方法。

2、时间序列预测的方法

有许多种方法能够进行时间序列预测,咱们将在这一节中对它们作简要地介绍。下面提到的全部方法的详细说明和Python代码能够在下文中找到:

七种时间序列预测方法(附Python代码):

https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/

1. 朴素预测法:在这种预测方法中,新数据点预测值等于前一个数据点的值。结果将会是一条平行线,由于全部预测的新值采用的都是先前的值。

2. 简单平均值法:视下一个值为全部先前值的平均数。这一预测法要优于“朴素预测法”,由于它的结果不会是一条平行线。可是在简单平均值法中,过去的全部值都被考虑进去了,而这些值可能并不都是有用的。例如,当要求预测今天的温度时,你仅须要考虑前七天的温度,而不是一个月前的温度。

3. 移动平均法:这是对前两个方法的改进。不取前面全部点的平均值,而是将n个先前的点的平均值做为预测值。

4. 加权移动平均法:加权移动平均是带权重的移动平均,先前的n个值被赋予不一样的权重。

5. 简单指数平滑法:在这种方法中,更大的权重被分配给更近期的观测结果,来自遥远过去的观测值则被赋予较小的权重。

6. 霍尔特(Holt)线性趋势模型:该方法考虑了数据集的趋势。所谓趋势,指的是数据的递增或递减的性质。假设旅馆的预订数量每一年都在增长,那么咱们能够说预订数量呈现出增长的趋势。该方法的预测函数是值和趋势的函数。

7. 霍尔特-温特斯(Holt Winters)方法:该算法同时考虑了数据的趋势和季节性。例如,一家酒店的预订数量在周末很高,而在工做日则很低,而且每一年都在增长;所以存在每周的季节性和增加的趋势。

8. ARIMA:ARIMA是一种很是流行的时间序列建模方法。它描述了数据点之间的相关性,并考虑了数值之间的差别。ARIMA的改进版是SARIMA (或季节性ARIMA)。咱们将在下一节中更详细地讨论ARIMA。

3、ARIMA简介

在本节中,咱们将简要介绍ARIMA,这将有助于理解Auto Arima。“时间序列完整教程”一文中对ARIMA, (p,q,d) 参数,ACF、 PACF图和具体实现有详细的解释。

ARIMA是一种很是流行的时间序列预测方法,它是自回归综合移动平均(Auto-Regressive Integrated Moving Averages)的首字母缩写。ARIMA模型创建在如下假设的基础上:

  • 数据序列是平稳的,这意味着均值和方差不该随时间而变化。经过对数变换或差分可使序列平稳。
  • 输入的数据必须是单变量序列,由于ARIMA利用过去的数值预测将来的数值。

ARIMA有三个份量:AR(自回归项)、I(差分项)和MA(移动平均项)。让咱们对每一个份量作一下解释:

  • AR项是指用于预测下一个值的过去值。AR项由ARIMA中的参数‘p’定义。“p”的值是由PACF图肯定的。
  • MA项定义了预测将来值时过去预测偏差的数目。ARIMA中的参数‘q’表明MA项。ACF图用于识别正确的‘q’值,
  • 差分顺序规定了对序列执行差分操做的次数,对数据进行差分操做的目的是使之保持平稳。像ADF和KPSS这样的测试能够用来肯定序列是不是平稳的,并有助于识别d值。

4、ARIMA实现步骤

实现ARIMA模型的通用步骤以下:

1. 加载数据:构建模型的第一步固然是加载数据集。

2. 预处理:根据数据集定义预处理步骤。包括建立时间戳、日期/时间列转换为d类型、序列单变量化等。

3. 序列平稳化:为了知足假设,应确保序列平稳。这包括检查序列的平稳性和执行所需的转换。

4. 肯定d值:为了使序列平稳,执行差分操做的次数将肯定为d值。

5. 建立ACF和PACF图:这是ARIMA实现中最重要的一步。用ACF PACF图来肯定ARIMA模型的输入参数。

6. 肯定p值和q值:从上一步的ACF和PACF图中读取p和q的值。

7. 拟合ARIMA模型:利用咱们从前面步骤中计算出来的数据和参数值,拟合ARIMA模型。

8. 在验证集上进行预测:预测将来的值。

9. 计算RMSE:经过检查RMSE值来检查模型的性能,用验证集上的预测值和实际值检查RMSE值。

5、为何咱们须要Auto ARIMA?

虽然ARIMA是一个很是强大的预测时间序列数据的模型,可是数据准备和参数调整过程是很是耗时的。在实现ARIMA以前,须要使数据保持平稳,并使用前面讨论的ACF和PACF图肯定p和q的值。Auto ARIMA让整个任务实现起来很是简单,由于它去除了咱们在上一节中提到的步骤3至6。下面是实现AUTO ARIMA应该遵循的步骤:

1. 加载数据:此步骤与ARIMA实现步骤1相同。将数据加载到笔记本中。

2. 预处理数据:输入应该是单变量,所以删除其余列。

3. 拟合Auto ARIMA:在单变量序列上拟合模型。

4. 在验证集上进行预测:对验证集进行预测。

5. 计算RMSE:用验证集上的预测值和实际值检查RMSE值。

正如你所看到的,咱们彻底绕过了选择p和q的步骤。啊!能够松口气了!在下一节中,咱们将使用一个假想数据集实现Auto ARIMA。

6、Python和R的实现

咱们将使用国际航空旅客数据集,此数据集包含每个月乘客总数(以千为单位),它有两栏-月份和乘客数。你能够从如下连接获取数据集:

https://datamarket.com/data/set/22u3/international-airline-passengers-monthly-totals-in-thousands-jan-49-dec-60#!ds=22u3&display=line

如下是同一问题的R代码:

7、Auto ARIMA如何选择最佳参数

在上述代码中,咱们仅需用.efit()命令来拟合模型,而没必要选择p、q、d的组合,可是模型是如何肯定这些参数的最佳组合的呢?Auto ARIMA生成AIC和BIC值(正如你在代码中看到的那样),以肯定参数的最佳组合。AIC(赤池信息准则)和BIC(贝叶斯信息准则)值是用于比较模型的评估器。这些值越低,模型就越好。

若是你对AIC和BIC背后的数学感兴趣,请访问如下连接:

  • AIC: http://www.statisticshowto.com/akaikes-information-criterion/
  • BIC: http://www.statisticshowto.com/bayesian-information-criterion/

8、尾注和进一步阅读

我发现Auto ARIMA是进行时间序列预测的最简单的方法。知道一条捷径是件好事,但熟悉它背后的数学也一样重要的。在这篇文章中,我略过了ARIMA如何工做的细节,但请务必阅读本文中提供的连接的文章。为了方便你参考,这里再次提供一遍连接:

  • 时间序列预测初学者综合指南(Python) https://www.analyticsvidhya.com/blog/2016/02/time-series-forecasting-codes-python/
  • 时间序列完整教程(R) https://www.analyticsvidhya.com/blog/2015/12/complete-tutorial-time-series-modeling/
  • 时间序列预测的七种方法 (附python代码) https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/
相关文章
相关标签/搜索