计量经济学中混频数据的处理

从若干学术论文中总结出的一些混频数据处理技术、模型与使用案例,但愿为卖方的宏观研究提供来自学术界的思路。为了顾及实践中的可操做性,忽略了一些结构过于复杂的技术或模型。git

计量经济学中混频数据的处理

集成与插值

集成

标准的集成方法根据低频数据的周期对高频数据作平均或累加,另外一种方法是根据低频数据的周期选取高频数据的最新值。github

插值

插值方法不经常使用,实施分两步:框架

  1. 低频数据映射到高频时间索引上,缺失值用插值补全;
  2. 在增广数据及上拟合模型参数。

可能须要考虑度量增长插值数据带来的偏差。spa

桥接等式

因为统计数据的发布有时间延迟,在实际使用预测模型时可能某些高频数据还没有发布,这时就须要桥接等式补全未发布的数据。htm

桥接等式是用于链接高频数据和低频数据的线性回归,桥接等式:递归

\[ y_{t_q} = \alpha + \sum_{i=1}^{j}\beta_i(L)x_{it_q} + u_{t_q} \]索引

其中,\(\beta_i(L)\) 是一个阶数为 \(k\) 的滞后多项式,\(x_{it_q}\) 是集成后的高频指标。ci

桥接等式的实施分两步:get

  1. 对高频数据创建预测模型,并将预测数据集成,与低频数据的频率保持一致;
  2. 将集成后的数据放入桥接等式中作回归。

高频数据上的预测模型一般是自回归模型。

案例

  • 《Using Monthly Data to Predict Quarterly Output》

做者针对真实 GDP(RGDP)创建了一个 ARX 预测模型,其中 X 分别是就业(EMP)和消费(CONS)。因为外部变量的发布频率为月度,模型中实际使用的数据为月度数据的季度平均。

在使用模型作预测时,若只能得到上个季度的部分月度数据,则先对月度数据创建单变量预测模型(滚动建模,保持参数估计的样本数一致),预测剩余月份的数据,再将已知数据和预测数据放在一块儿计算季度平均,最后放进 ARX 模型中。

混合数据抽样(Mixed-Data Sampling,MIDAS)

“桥接等式”并未真正解决将高、低频数据归入到一个统一模型框架下的问题,数据的集成不可避免。 MIDAS 巧妙地应用“集约参数化”的手段使得高频数据在无需集成的前提下能够做为低频数据的解释变量。在某些情形下,若选择的高频数据是来自金融市场的交易数据,则能够实现对低频数据的实时预测。

符号约定:

  • \(t_q\),低频数据的时间索引;
  • \(t_m\),高频数据的时间索引;
  • \(m\),低频周期关于高频周期的倍数(例如,季度数据关于月度数据的倍数等于 3,月度数据关于周度数据的倍数等于 4);
  • \(w\),高频数据相对于低频数据可以提早的时间(以高频数据的时间索引为准,\(w \lt m\)),这意味着能够提早 \(m-w\) 进行预测。
  • 规定 \(y_{t_q} = y_{t_m},\forall t_m = mt_q\)

基本 MIDAS

提早 \(h_q\) 步的预测模型:

  • 单变量

\[ y_{t_q + h_q} = y_{t_m + mh_q} = \beta_0 + \beta_1 b(L_m;\theta)x_{t_m+w}^{(m)} + \varepsilon_{t_m+h_m} \]

  • 多变量

\[ y_{t_q + h_q} = y_{t_m + mh_q} = \beta_0 + \sum_{i=1}^N \beta_i b(L_m;\theta_i)x_{i,t_m+w}^{(m)} + \varepsilon_{t_m+h_m} \]

其中,\(h_q=h_m/m\)\(b(L_m;\theta) = \sum_{k=0}^K c(k;\theta) L_m^k\)\(L_m^k x_{t_m}^{(m)} = x_{t_m-k}^{(m)}\)\(x_{t_m +w}^{(m)}\) 是从高频数据 \(x_{t_m}\) 中的跳跃采样。

预测值为:

\[ \hat y_{T_m^y + h_m\mid T_m^x} = \hat \beta_0 + \hat \beta_1 b(L_m;\hat \theta)x_{T_m^x}^{(m)} \\ \hat y_{T_m^y + h_m\mid T_m^x} = \hat \beta_0 + \sum_{i=1}^N \hat \beta_i b(L_m;\hat \theta_i)x_{i,T_m^x}^{(m)} \]

\(c(k;\theta)\) 的集约参数化(Parameterization in a Parsimonious Way)是 MIDAS 的关键,经常使用选择有两个:

  • Exponential Almon Lag
  • Beta Lag

Exponential Almon Lag

\[ c(k;\theta) = \frac{\exp(\theta_1 k + \cdots + \theta_Q k^Q)} {\sum_{k=1}^K \exp(\theta_1 k + \cdots + \theta_Q k^Q)} \]

Beta Lag

\[ c(k;\theta_1,\theta_2) = \frac{f(\frac kK;\theta_1,\theta_2)} {\sum_{k=1}^K f(\frac kK;\theta_1,\theta_2)} \]

其中,\(f(x,a,b) = \frac{x^{a-1}(1-x)^{b-1}\Gamma (a+b)}{\Gamma(a)\Gamma(b)}\)\(\Gamma(a) = \int_0^\infty e^{-x}x^{a-1}dx\)

其余集约参数化

\[ c(k;\theta) = \frac 1K \]

\[ c(k;\theta) = \frac{g(\frac kK, \theta)}{\sum_{k=1}^K g(\frac kK, \theta)} \]

其中,\(g(k,\theta) = \frac{\Gamma(k+\theta)}{\Gamma(k+1)\Gamma(\theta)}\)
\[ c(k;\theta) = \frac{\theta^k}{\sum_{k=1}^\infty \theta^k}, \mid \theta \mid \le 1 \]

AR-MIDAS

AR-MIDAS 中一阶自回归模型最为常见。

  • 一步模型

\[ y_{t_m} = \beta_0 + \lambda y_{t_m-m} + \beta_1 b(L_m;\theta)(1-\lambda L_m^m)x_{t_m+w-m}^{(m)} + \varepsilon_{t_m} \]

  • 多步模型

\[ y_{t_m} = \beta_0 + \lambda y_{t_m-h_m} + \beta_1 b(L_m;\theta)(1-\lambda L_m^{h_m})x_{t_m+w-h_m}^{(m)} + \varepsilon_{t_m} \]

递归式的参数估计

  1. 估计对应的基本 MIDAS 模型,获得残差估计 \(\hat \varepsilon_{t_m}\)
  2. 并算出 \(\lambda\) 的初始值 \(\lambda_0\)\(\hat\lambda_0 = (\sum \hat \varepsilon^2_{t_m+w-h_m})^{-1}\sum \hat \varepsilon_{t_m} \hat\varepsilon_{t_m+w-h_m}\)
  3. 构造新变量 \(y^*_{t_m} = y_{t_m} - \hat\lambda_0y_{t_m-h_m}​\) 以及 \(x^{*(3)}_{t_m + w - h_m} = x^{(3)}_{t_m + w - h_m} - \hat\lambda_0 x^{(3)}_{t_m-( h_m - w)-h_m}​\)
  4. \(y^*_{t_m} = \beta_0 + \beta_1 b(L_m;\theta)x^{*(3)}_{t_m + w - h_m} + \varepsilon_{t_m}\) 应用 NLS,获得估计 \(\hat \theta_1\) 和 新的残差;
  5. 重复 二、三、4 步,直到估计值 \(\hat \lambda\)\(\hat \theta\) 稳定。

案例

  • 《Macroeconomic Forecasting With Mixed-Frequency Data》

做者使用月度数据工业产值(IP)、就业(EMP)和设备开工率(CU)联合产出增速(季度数据)创建一个 AR-MIDAS 模型,预测下季度产出增速。

  • 《Should Macroeconomic Forecasters Use Daily Financial Data and How》

做者将大量来自金融市场的每日数据和许多月度统计数据(集成为季度数据)与 GDP 增加率(季度)联合起来创建 AR-MIDAS 模型,实施策略有两种:

  1. 用 PCA 提取每日数据和季度数据的主成分,将主成分和 GDP 增加率联合创建 AR-MIDAS 模型;
  2. 用若干每日数据分别和 GDP 增加率联合创建 AR-MIDAS 模型,获得若干预测结果,再将预测加权平均。
  • 《Real-Time Forecasts of Inflation The Role of Financial Variables》

做者挑选了几个来自金融市场的数据与其余若干经济指标(月度数据)联合欧元区 HICP(调和消费者物价指数)创建起 HICP 的 AR-MIDAS 模型,并借助金融市场的数据实现了对 HICP 的实时预测。

金融市场数据包括:

  • 短时间与长期利率;
  • 期限利差;
  • 股票指数;
  • 商品价格;
  • 汇率。

经济指标包括:

  • 滞后 1 期的 HICP 数据;
  • 滞后 1 期的油价同比;
  • 滞后 5 期的核心通胀。

相关软件

  • forecast:单变量时间序列预测
  • MTS:多变量时间序列预测
  • midasr:MIDAS 回归
  • statsmodels:回归分析与时序预测
  • prophet:单变量时间序列预测

参考文献

  1. A Survey of Econometric Methods for Mixed-Frequency Data
  2. Using monthly data to predict quarterly
  3. Macroeconomic forecasting with mixedfrequency data Forecasting US output growth
  4. Should Macroeconomic Forecasters Use Daily Financial Data and How
  5. Real-Time Forecasts of Inflation The Role of Financial Variables
相关文章
相关标签/搜索