目录html
从若干学术论文中总结出的一些混频数据处理技术、模型与使用案例,但愿为卖方的宏观研究提供来自学术界的思路。为了顾及实践中的可操做性,忽略了一些结构过于复杂的技术或模型。git
标准的集成方法根据低频数据的周期对高频数据作平均或累加,另外一种方法是根据低频数据的周期选取高频数据的最新值。github
插值方法不经常使用,实施分两步:框架
可能须要考虑度量增长插值数据带来的偏差。spa
因为统计数据的发布有时间延迟,在实际使用预测模型时可能某些高频数据还没有发布,这时就须要桥接等式补全未发布的数据。htm
桥接等式是用于链接高频数据和低频数据的线性回归,桥接等式:递归
\[ y_{t_q} = \alpha + \sum_{i=1}^{j}\beta_i(L)x_{it_q} + u_{t_q} \]索引
其中,\(\beta_i(L)\) 是一个阶数为 \(k\) 的滞后多项式,\(x_{it_q}\) 是集成后的高频指标。ci
桥接等式的实施分两步:get
高频数据上的预测模型一般是自回归模型。
做者针对真实 GDP(RGDP)创建了一个 ARX 预测模型,其中 X 分别是就业(EMP)和消费(CONS)。因为外部变量的发布频率为月度,模型中实际使用的数据为月度数据的季度平均。
在使用模型作预测时,若只能得到上个季度的部分月度数据,则先对月度数据创建单变量预测模型(滚动建模,保持参数估计的样本数一致),预测剩余月份的数据,再将已知数据和预测数据放在一块儿计算季度平均,最后放进 ARX 模型中。
“桥接等式”并未真正解决将高、低频数据归入到一个统一模型框架下的问题,数据的集成不可避免。 MIDAS 巧妙地应用“集约参数化”的手段使得高频数据在无需集成的前提下能够做为低频数据的解释变量。在某些情形下,若选择的高频数据是来自金融市场的交易数据,则能够实现对低频数据的实时预测。
符号约定:
提早 \(h_q\) 步的预测模型:
\[ y_{t_q + h_q} = y_{t_m + mh_q} = \beta_0 + \beta_1 b(L_m;\theta)x_{t_m+w}^{(m)} + \varepsilon_{t_m+h_m} \]
\[ y_{t_q + h_q} = y_{t_m + mh_q} = \beta_0 + \sum_{i=1}^N \beta_i b(L_m;\theta_i)x_{i,t_m+w}^{(m)} + \varepsilon_{t_m+h_m} \]
其中,\(h_q=h_m/m\),\(b(L_m;\theta) = \sum_{k=0}^K c(k;\theta) L_m^k\),\(L_m^k x_{t_m}^{(m)} = x_{t_m-k}^{(m)}\),\(x_{t_m +w}^{(m)}\) 是从高频数据 \(x_{t_m}\) 中的跳跃采样。
预测值为:
\[ \hat y_{T_m^y + h_m\mid T_m^x} = \hat \beta_0 + \hat \beta_1 b(L_m;\hat \theta)x_{T_m^x}^{(m)} \\ \hat y_{T_m^y + h_m\mid T_m^x} = \hat \beta_0 + \sum_{i=1}^N \hat \beta_i b(L_m;\hat \theta_i)x_{i,T_m^x}^{(m)} \]
对 \(c(k;\theta)\) 的集约参数化(Parameterization in a Parsimonious Way)是 MIDAS 的关键,经常使用选择有两个:
\[ c(k;\theta) = \frac{\exp(\theta_1 k + \cdots + \theta_Q k^Q)} {\sum_{k=1}^K \exp(\theta_1 k + \cdots + \theta_Q k^Q)} \]
\[ c(k;\theta_1,\theta_2) = \frac{f(\frac kK;\theta_1,\theta_2)} {\sum_{k=1}^K f(\frac kK;\theta_1,\theta_2)} \]
其中,\(f(x,a,b) = \frac{x^{a-1}(1-x)^{b-1}\Gamma (a+b)}{\Gamma(a)\Gamma(b)}\),\(\Gamma(a) = \int_0^\infty e^{-x}x^{a-1}dx\)
\[ c(k;\theta) = \frac 1K \]
\[ c(k;\theta) = \frac{g(\frac kK, \theta)}{\sum_{k=1}^K g(\frac kK, \theta)} \]
其中,\(g(k,\theta) = \frac{\Gamma(k+\theta)}{\Gamma(k+1)\Gamma(\theta)}\)
\[ c(k;\theta) = \frac{\theta^k}{\sum_{k=1}^\infty \theta^k}, \mid \theta \mid \le 1 \]
AR-MIDAS 中一阶自回归模型最为常见。
\[ y_{t_m} = \beta_0 + \lambda y_{t_m-m} + \beta_1 b(L_m;\theta)(1-\lambda L_m^m)x_{t_m+w-m}^{(m)} + \varepsilon_{t_m} \]
\[ y_{t_m} = \beta_0 + \lambda y_{t_m-h_m} + \beta_1 b(L_m;\theta)(1-\lambda L_m^{h_m})x_{t_m+w-h_m}^{(m)} + \varepsilon_{t_m} \]
做者使用月度数据工业产值(IP)、就业(EMP)和设备开工率(CU)联合产出增速(季度数据)创建一个 AR-MIDAS 模型,预测下季度产出增速。
做者将大量来自金融市场的每日数据和许多月度统计数据(集成为季度数据)与 GDP 增加率(季度)联合起来创建 AR-MIDAS 模型,实施策略有两种:
做者挑选了几个来自金融市场的数据与其余若干经济指标(月度数据)联合欧元区 HICP(调和消费者物价指数)创建起 HICP 的 AR-MIDAS 模型,并借助金融市场的数据实现了对 HICP 的实时预测。
金融市场数据包括:
经济指标包括: