自回归模型（AR ）

时间 2019-11-11

标签回归模型繁體版

原文原文链接

2017/7/2 19:24:15函数

自回归模型（Autoregressive Model，简称 AR 模型）是最多见的平稳时间序列模型之一。接下将介绍 AR 模型的定义、统计性质、建模过程、预测及应用。优化

1、AR 模型的引入

考虑如图所示的单摆系统。设 x_t 为第 t 次摆动过程当中的摆幅。根据物理原理，第 t 次的摆幅 x_t 由前一次的摆幅 x_t-1 决定，即有 x_t=a₁x_t-1。考虑到空气振动的影响，咱们每每假设code

(1)

其中，随机干扰 ε_t ~ N(0, σ²)。io

设初始时刻 x₀=1，如今取不一样的 a₁ 和 σ 值进行实验。实验结果以下图。import

咱们能够看出，参数 a₁ 对序列的稳定性起到决定性的做用，而噪声强度 σ² 决定了序列的波动程度。变量

在这里，咱们称模型 (1) 为一阶自回归模型。更通常地，能够考虑序列值 x_t 可由前 p 个时刻的序列值及当前的噪声表出，即原理

(2)

其中，a_j 为参数，{ε_t} 为白噪声。为了显示序列值为随机变量，这里使用 X_t 而不是 x_t。model

2、AR 模型的定义

定义 1float

若是 {ε_t} 为白噪声，服从 N(0,σ²)，a₀,a₁,...,a_p(a_p≠0) 为实数，就称 p 阶差分方程方法

(3)

是一个 p 阶自回归模型，简称 AR(p) 模型，称 a=(a₀,a₁,...,a_p)^T 是 AR(p) 模型中的自回归系数。知足 AR(p) 模型 (3) 的时间序列 {X_t} 称为 AR(p) 序列。当 a₀=0 时，称为零均值 AR(p) 序列，即

(4)

须要指出的是，对于 a₀≠0 的状况，咱们能够经过零均值化的手段把通常的 AR(p) 序列变为零均值 AR(p) 序列。

3、AR 序列的建模

对于给定的时间序列 {X_t}，咱们最关注的是如何对其进行建模。通常地，平稳序列的建模过程能够用下图中的流程图表示。

步骤 1 对序列做白噪声检验，若经检验断定序列为白噪声，建模结束；不然转步骤 2.

步骤 2 对序列做平稳性检验，若经检验断定为非平稳，则进行序列的平稳化处理，转步骤 1；不然转步骤 3.

步骤 3 对模型进行识别，估计其参数，转步骤 4.

步骤 4 检验模型的适用性，若检验经过，则获得拟合模型并可对序列作预测；不然转步骤 3.

在这里，对白噪声检验、平稳性检验和平稳化处理不进行介绍。有时间写两篇这方面的博文。

(一) AR 模型的断定

对于观测到的时间序列，若经过白噪声检验肯定为非白噪声，且经平稳性检验肯定为平稳后，咱们常根据相关系数和偏相关系数来识别模型。

这一部分的主要任务是，判断该问题是否适用 AR 模型建模，以及大体肯定阶数 p。

可经过下面的代码，计算自相关系数（Autocorrelation Function, SAF）和偏自相关系数（Partial Autocorrelation Function, PACF）。

from statsmodels.tsa.stattools import acf, pacf
# pacf 计算偏自相关系数
# acf  计算自相关系数

若是一个时间序列知足如下两个条件

ACF 具备拖尾性，即 ACF(k) 不会在 k 大于某个常数以后就恒等于 0。
PACF 具备截尾性，即 PACF(k) 在 k>p 时变为 0。

第 2 个条件还能够用来肯定阶数 p。考虑到存在随机偏差的存在，所以 PACF 在 p 阶延迟后未必严格为 0 ，而是在 0 附近的小范围内波动。具体来讲

设 k 阶偏自相关系数为 a_k，若阶数大于 p 大部分的偏自相关系数知足下式，则 AR 模型的阶数取 p。

(5)

其中 N 表示样本序列长度。

例如，对于模型 X_t=0.9X_t-1-0.3X_t-2+ε_t，它的 ACF 和 PACF 以下。

咱们能够看出自相关系数呈现必定的周期性，故断定为拖尾；偏自相关系数 2 步后截尾。所以，咱们能够尝试使用 AR(2) 模型来建模。

(二) AR 模型的参数估计

AR 模型的参数估计主要有三种方法：矩估计、最小二乘估计和最大似然估计。

这里仅介绍最小二乘估计。（实际上最大似然估计与最小二乘估计的结果同样）

对于样本序列 {x_t}，当 j≥p+1时，记白噪声 ε_j 的估计为

(6)

一般称为残差。咱们的优化目标是使得残差平方和

(7)

达到最小。咱们称使上式达到最小的为 AR(p) 模型中自回归系数的估计。

记

获得以下线性方程组

(8)

因而式 (7) 的目标函数可表示为

(9)

上式对参数求导并令其为 0，可得

(10)

所以，参数的最小二乘估计为

(11)

此时，偏差方差的最小二乘估计

(12)

(三) AR 模型的定阶

在对 AR 模型识别时，根据其样本偏自相关系数的截尾步数，可初步获得 AR 模型的阶数 p。然而，此时创建的 AR(p) 未必是最优的。一个好的模型一般要求残差序列方差较小，同时模型页相对简单，即要求阶数较低。所以咱们须要一些准则来比较不一样阶数的模型之间的优劣，从而肯定最合适的阶数。下面给出两种经常使用的定阶准则。

1. FPE 准则

最终预报偏差（Final Prediction Error）准则，简称为 FPE 准则，其判据就是最终预报偏差最小。设 AR(p) 为拟合模型，是序列的各阶样本自协方差函数，其最终预报偏差可表示为

(13)

在具体应用时，一般是分别创建从低阶到高阶的 AR 模型，并计算出相应的 FPE
的值，由此肯定使 FPE 达到最小的 p 值。

2. 贝叶斯信息准则

定义

(14)

使得 BIC 达到最小值的 p 即为该准则下的最优 AR 模型的阶数。

(四) AR 模型的检验

在模型拟合以后须要进行模型的检验，主要分为两部分

有效性检验：检验拟合模型对序列中信息的提取是否充分
显著性检验：检验模型中的个参数是否显著为 0，从而判断拟合魔心是否能够进一步简化。

1. 模型的有效性检验

一个好的拟合模型应该可以提取观测值序列中几乎全部的样本相关信息，即残差序列应该为白噪声序列。所以，模型的有效性检验即为残差序列的白噪声检验。若是残差序列是白噪声，那么理论赏其延迟任意阶的自相关系数为 0，考虑数据的误差，那么绝大多数应该在 0 附近的范围内，一般在 95% 的置信水平（2倍标准差）之内。

2. 参数的显著性检验

这一部分的目标是，删除那些不显著参数使模型结构最为精简。对于模型参数 a_j(j=1,...,p) 的检验，其原假设和备择假设分别为

(15)

检验统计量为 t 统计量：

(16)

在给定的显著水平 α 下，当检验统计量 T 大部分位于分点 t_1-α/2，或该统计量的 P 值小于 α 时，则能够以 1-α 的置信水平拒绝原假设，
认为模型参数显著。反之，则不能显著拒绝参数为 0 的假设。

参考文献

[1] 周永道，王会琦，吕王勇. 时间序列分析及应用. 高等教育出版社. 2015.