数据化决策（期末复习）

时间 2019-11-09

标签数据决策期末复习繁體版

原文原文链接

第一章预测概述

预测：根据事物的客观发展趋势与变化规律，对特定的对象将来发展的趋势或状态作出科学的推测与判断网络

预测的5大基本原理

系统性原理。 以系统的观点为指导，采用系统分析，实现预测的系统目标。
- 预测问题的提出
- 预测模型的创建（变量及其关系）
- 预测方法的解决
- 预测过程的组织和预测结果的应用
惯性（连贯性）原理。 事情的发展变化与其过去的行为总有或大或小的联系，过去的行为影响如今，也影响将来，这种现象称之为“惯性现象”。所谓惯性原理，就是研究对象的过去和如今，依据其惯性，预测其将来状态。它是趋势外推法的理论依据,时间序列事件建模。
类推原理。 根据已知的某事物的发展变化特征，推断其具备近似特征的预测对象的将来状态，就是所谓的“类推原理”。是从已知领域过渡到到未知领域的探索，是一种重要的创造性方法。类比物之间类似特征越多，类比越可靠。 定性分析
相关性原理。 研究预测对象与其相关事物间的相关性，利用相关事物的特征来推断预测对象的将来状态。（注意区分相关关系与因果关系）
- 同步相关。A发生以后，B立刻发生。温度升高---->用电量上升
- 异步相关。A发生以后，B一段时间后发生。动物疫病---->价格波动
几率推断原理。 受各类内外部因素上的影响，预测对象的将来状态带有随机性。可用几率统计的方法求出各类各类随机事件的几率，当预测结果以较大的几率出现时，可认为这个结果成立。（第六章马尔科夫预测）

预测的评价，自成功，自失败预测（第七章）

预测的评价

准确性：预测对象的将来特征具备测不许性。 各类干扰、预测对象变化的复杂程度、人们的认知以及随机现象的随机性都会使预测结果不许确。异步

预测模型的评价遵循以下原则：函数

合理性。与事物发展规律一致，符合逻辑。
预测能力。是否具备预测能力：一、预测期间事物发展规律。二、预测模型偏差范围。
稳定性。在较长时期内准确的反应预测对象的发展变化。
简单性。预测能力相差不大时，形式简单、容易运用的模型。

自成功与自失败

自成功预测。只要作出了这种预测，其结果就会自动发生。预测与对方相处融洽，必然致使本身重视与对方的交往，促进结果的产生。
自失败预测。只要作出了这种预测，其结果就会自动失败。开车时预测以当前速度行进会撞到行人，作出这样的预测必然致使减速等待行人经过，则预测结果天然不会发生。

我的理解：自成功与自失败的不一样主要取决于预测结果是不是本身的或者大众的指望。性能

预测结果自己会不会被预测结果所影响： eg：预测股价上涨，结果股价确实上涨，产生的缘由是我预测的准，仍是有了这个预测以后，提高了你们的预期，因此纷纷去买，致使股票上涨。（第二种缘由，自成功预测，预测的结果自己，对结果又促进做用。）测试

预测活动对预测结果考虑，可将预测分为三类：大数据

决策者没法控制，也难以影响预测结果可否实现的预测。eg：天气预报
决策者能够控制预测结果可否实现的预测。eg：自成功预测、自失败预测
决策者只能部分地控制或影响预测结果的实现。这类预测不一样程度地含有自成功或自失败的因素。

补充课件：预测的基本知识点

预测偏差

创建一个模型以后，它的性能的好坏，要有一个评判的标准。，RMSE、MAE反应的是绝对差别。优化

相对偏差。（预测值-真实值）/真实值。百分比的差别。MAPE
绝对偏差。 $RMSE = '\sqrt{\frac1m\sum_{i=1}^m(y_i - \hat{y_i})^2}$ , $MAE = \frac1m\sum_{i=1}^m\begin{vmatrix}(y_i - \hat{y_i})\end{vmatrix}$

预测模型构建方式

对一段已知的数据进行必定比例的划分，前面百分之80作训练集，百分之20作测试集。在测试集上进行训练集的偏差，根据此偏差判别训练集的好坏。在训练集里划分出一个小的验证集，一样是作参数的肯定。cdn

多步预测

一步预测或多步预测取决于的是数据最后一个观测值的时间点距离要预测的时间点的间隔。建模策略，训练的样本集该怎样构建？训练样本里面是否包含预测的数据对象

滚动策略（直接建模）。123->4, 1234->5,12345->6。获得真实值再预测
迭代策略。123->4, Y4拟合值代入函数进行预测5。用预测值代替真实值预测

没有绝对的好坏，对数据的依赖不一样，选择不一样的方式blog

绝对领先的预测模型？

否！但通过各种预测竞赛（M1，M3，M4，NN3，NN5）,总结出一些性能广泛较优的模型

第二章非模型预测

非模型预测预：测者凭借本身的业务知识、经验和综合分析能力，运用已掌握的历史资料和直观材料，对事物发展的趋势、方向和重大转折点作出估计与推测。

指标预测法与类比法

指标预测法： 根据经济发展中各类经济指标的变化，分析判断市场将来发展趋势的方法。

领先落后指标法。 根据与经济发展有关指标的变化同市场变化之间在时间上的前后顺序，来分析判断预测市场发展前景。不一样的指标在于①循环转折变化出现的时间 与 ②经济景气循环相应转折变化 之间前后出现的时间点。（与以前讲到的同步相关、异步相关相似的概念。）
- 先期指标（先行指标）。①稳定领先②的经济指标。预警指标体系的主体，对市场行情变化始终起预报或示警做用。
- 同步指标（一致指标）。①与②几乎同事发生（偏差不超过两个月）。整体经济行为的衡量标志。
- 落后指标（迟行指标）。①稳定的落后于②（约3个月以上，半个周期之内）。检验宏观经济波动过程是否确已超过某个转折点，进入另外一景气状态。
扩散指数法。 根据领先经济指标的升降变化，计算出上升指标的扩散指数，以扩散指数为依据来判断市场将来的景气状况。只能有效预计经济形势与市场行情波动转折点。 运用一批经济指标的变化的变化来预测市场将来的发展趋势。扩散指数法比任何单一指标都更具可靠性和权威性。
合成指数法（CI）。 既能分析经济形势或市场行情变化的转折点，，又能在某种意义上反映经济形势或市场行情波动振幅。将扩散指数法找到的一系列指标根据某种依据合成一个指标。

类比法： 利用两事物发生的时间差别和形式上的相同或类似，借用先行的、同类的、类似的事物的有关参数，推断预测目标将来发展趋势与可能水平。

产品类比法。 对同类或者相近产品的历史资料，如销售状况、市场需求等资料进行类比研究。
地区类比法。 依据其余地区（或国家）曾经发生的事件进行类推，同一产品在不一样地区有领先滞后的时差，能够根据领先地区的市场状况类推滞后地区的市场状况
行业类比法。 同一产品在不一样行业使用时间的前后，利用该产品在先使用行业所展示的特性，类推该产品在后使用行业的规律。
局部整体类比法。 经过典型调查或者其余方式进行一些具备表明性的调查，分析市场动态变化及发展规律，预测和类推全局或大范围的市场变化。

几率预测法的交叉影响分析（P50 计算例题2-11）

交叉影响分析法（交叉几率法）： 经过主观估计每一个事件在将来发生几率，以及事件之间相互影响的几率，利用交叉影响矩阵考察预测事件之间的相互做用，进而预测目标事件将来发生的可能性。

主观判断估计各事件发生的几率，即初始几率。
构造交叉影响矩阵，反应事件相互影响程度。
根据事件之间的相互影响，修正各事件发生的几率，根据修正后的结果进行预测。

某个事件发生以后，对另一个事件的影响。利用随机数，肯定事件是否发生，在此事件的基础上修改其余事件几率，如此迭代，趋于稳定。

第三章回归预测

多元线性回归中的多重共线性问题

多元回归各个自变量之间自己存在相关性（线性或接近线性）的关系，也就是多重共线性。

若干自变量之间的共线性程度很高，产生的后果：

系数估计值的精度大大下降。没法正确判断自变量对因变量的影响程度。变量a、b，对应的系数i、j，因ab之间有相关性，不能保证系数ij之间有没有代替关系。
估计的结果很是敏感。样本容量增大减少，系数的估计值会有很大的变化。
是预测人员错误的剔除对因变量影响很大的自变量或错误的引入对因变量没有显著影响的自变量。
估计的参数出现不和逻辑的符号，使预测失去意义。

第四章肯定型时间序列分析

时间序列：观察记录到的一组按时间顺序排列的数据。

肯定型时间序列：数据序列去掉随机扰动后，剩下的能够用肯定的时间函数表示。数据=模型+偏差（随机扰动）

移动平均（计算P93例题4-2）

优势：简单易行。
不足: 一、每计算一次移动平均，需存储最近N个观察数据。二、对最近的N个观察值等权对待，对期之前的数据彻底不考虑。

一次移动平均

哪一个参数最重要，决定移动平均的效率的参数：移动期数。 移动期数越多，对原始序列的平滑做用的程度越大。数据的波动程度。经过屡次的实验判断更合适的参数。

M_t^{(1)} = \frac{X_t+X_{t-1}+...+X_{t-N+1}}{N} = \frac{\sum_{i=0}^{N-1}X_{t-i}}{N}

为t周期的实际值，为计算移动平均值所选定的数据个数，跨越期即移动期数。 t+1期的预测值取

也就是说预测第Y期，要从Y-1期开始算 $M_t^{(1)}(N)$

N即移动期数。通过移动平均法计算后，随机波动显著减少。N越大，修匀的程度越强，波动也越小，这时变化趋势反应就越迟钝。反之则相反。在实用上，通常用对过去数据预测的均方偏差S做为选取N的准则。一次移动平均法应用于非平稳模型会有严重的滞后性。

通常只适应于平稳模式。
通常只适用于下一时期的预测。

二次移动平均

在一次平均数的基础上，二次移动平均为

M_t^{(2)} = \frac{M_t^{(1)}+M_{t-1}^{(1)}+...+M_{t-N+1}^{(1)}}N

创建直线趋势预测模型(例题4-4 P97)

设时间序列 $\{X_t\}$ 从某时期开始具备直线趋势，且认为将来时期也按此直线则趋势变化，则设此直线趋势预测模型

为当前的时期数，为由至预测期的时期数，为截距，为斜率，二者又称平滑系数。可运用移动平均计算平滑系数

a_t = M_t^{(1)} + (M_t^{(1)} - M_t^{(2)}) = 2M_t^{(1)} - M_t^{(2)}

b_t = \frac{2(M_t^{(1)} - M_t^{(2)})}{N-1}

指数平滑：α的做用

意义：利用平滑系数 $\alpha$ 来实现不一样时间的数据的非等权处理。距离如今越远的数据，权重越小。衰减的速度取决于 $\alpha$ 的大小， $\alpha$ 越大，衰减越快， $\alpha$ 越小，衰减越小。

做用： $\alpha$ 较大表示较倚重近期数据所承载的信息，修正的幅度也较大，采用的数据序列也较短； $\alpha$ 较小表示修正的幅度也较小，采用的数据序列也较长。

指数平滑最适用于进行简单的时间序列分析和中短时间预测。

一次指数平滑

一次指数平滑值为

s_t^{(1)} = \alpha X_t + \alpha(1-\alpha)X_{t-1} + \alpha(1-\alpha)^2X_{t-2} + ...

预测公式为

二次指数平滑

二次指数平滑值为

S_t^{(2)} = \alpha S_t^{(1)} + \alpha(1-\alpha)S_{t-1}^{(1)} + \alpha(1-\alpha)^2S_{t-2}^{(1)} + ...

预测公式为

其中

a_t = S_t^{(1)} + (S_t^{(1)} - S_t^{(2)}) = 2S_t^{(1)} - S_t^{(2)}

b_t = \frac\alpha{1-\alpha}(S_t^{(1)} - S_t^{(2)})

$\alpha$ 为平滑系数，为所需预测超前期数， $S_t^{(1)}$ 为一次指数平滑值， $S_t^{(2)}$ 二次指数平滑值。

季节指数法

指经济变量在一年之内以季（月）的循环为同期特征，经过计算销售量（或需求量）的季节指数达到预测目的一种方法。

不考虑长期趋势的季节指数法

计算历年同季度（月）的平均数。
计算各年季平均值。 $\overline{y}_i$ ,i = 年份的个数, $\overline{y}_n = \frac14(y_{4n-3} + y_{4n-2} + y_{4n-1} + y_{4n})$
计算各季（月）的季节指数。以历年同季（月）的平均数（）与全时期的季（月）平均数（ $\overline{y}$ ）之比为季节常数 $\alpha_i$ ,即 $\alpha_i = \frac {r_i}{\overline{y}}$ , $\overline{y}$ 为步骤二中所求值的平均数。
利用季节指数法进行预测。假设 $\hat{y}_t$ 为第t月的预测值， $\alpha_t$ 为第t月的季节指数，为第i月的实际值， $\alpha_i$ 为第i月的季节指数,则

\hat{y}_t = y_i\frac{\alpha_t}{\alpha_i}

第五章随机型时间序列

残差 = 真实值 - 拟合值

差分： $\nabla X_n = X_n - X_{n-1}$ ，引入差分算子 $\nabla=1-B$ ，阶差分可定义为 $\nabla^n = (1-B)^n$

平稳性时间序列：时间序列的均值与自协方差函数不随时间变化而变化。

时间序列分析建模的流程

根据建模的目的和理论分析，肯定模型的基本形式
进行模型识别，即从一大类模型中选择出一类实验模型
将所选模型应用于历史数据，求得模型的参数
检验模型是否合适。合适，预测控制，不合适，返回第二阶段从新选择

模型诊断：残差序列是否符合白噪声的特色。围绕均值上下随机波动

白噪声

白噪声是指功率谱密度在整个频域内均匀分布的噪声。
白噪声序列就是一系列独立分布的正态序列：序列无相关性，无趋势性，有随机性，它服从均值为0，方差为σ2的正态分布，白噪声的每个时序点都是服从正态分布的。
之因此称为白噪声，是由于他和白光的特性相似，白光的光谱在各个频率上有相同的强度，白噪声的谱密度在各个频率上的值相同。

ARIMA模型中p,q参数的识别方法（140-141）

p:自回归阶数 q:移动平均阶数

p、q参数识别看自相关图与偏自相关图、截尾与拖尾形式。

AR(p)。自相关拖尾，偏自相关截尾。p：偏自相关在第几阶截尾
MA(q)。自相关截尾，偏自相关拖尾。q：自相关在第几阶截尾
ARMA(p,q)。自相关、偏自相关拖尾且较快收敛为0。p：偏自相关 q：自相关。以最简单的形式进行判别。eg（1,1）、（1,2）、（2,1）、（2,2）等进行尝试检验是否符合。
ARIMA(p,d,q)。自相关、偏自相关拖尾且（至少有一个降低很慢）。d：差分阶数

滞后算子的表达形式

改写等式为算子表达式（P168第3题）

引入向后推移算子：

B^kX_n = X_{n-k}, B^kC = C, k=0,1,...(C为常数)

基于ARIMA模型的预测（ppt例题18）

自回归模型

移动平均模型

自回归移动平均（即上面两个公式相加）

求和自回归移动平均模型

有些时间序列常呈现出一种特殊的非平稳性，称之为齐次非平稳性：只要进行一次或屡次差分就能够将其化为平稳序列。差分的次数称为齐次化的阶，即d。差分： $\nabla X_n = X_n - X_{n-1}$ ，引入差分算子 $\nabla=1-B$ ，阶差分可定义为 $\nabla^n = (1-B)^n$

第六章马尔科夫预测

马尔科夫过程：事物的变化过程仅与近期的状态有关，而与事物过去的状态无关。

马尔科夫预测：事物有不少种状态，在不一样状态之间转移的几率

绘制状态转移几率矩阵（例题6-二、6-3）

状态转移过程当中行向量相加必定为1，在多步转化以后达到一种稳定的状态。

稳态几率矩阵的求解（例题6-5）

设为一状态几率向量，为状态转移矩阵。若

则称为马尔科夫链的一个平稳分布。根据方程组一下求解，即稳态分布

\begin{cases}
XP = X \\
\sum_{i=1}^nx_i = 1
\end{cases}

第八章决策概述

决策的几种类型：肯定型、风险型、不肯定型

肯定型。 天然状态只有一种，不用考虑天然状态而按照既定目标即评价准则选择行动方案。
风险性。 天然状态有两种或两种以上，各类天然状态出现的几率已知。
不肯定性。 决策者面临的可能出现的天然状态有多种，但各类天然状态出现的几率未知。

第九章指望效用理论与前景理论

指望收益、指望效用、前景理论之间的区别与联系

指望效用理论与前景理论是对最基本的指望收益理论进行的改进。
指望收益理论纯粹用经济价值评判方案的好坏，有必定的局限性。
- 实际决策与理想决策的差别性。绝症病人只要有一线治愈机会就会不惜一切代价求医问药。
- 决策者的主观因素。在原来的衬衣都要已破旧与还有十几件新衬衣的状况下，去买一件新衬衣。
指望效用理论对不一样的决策结果作出指望效用曲线，经过屡次问答的过程肯定效用曲线上的点，很好的描述了不一样决策者之间的决策偏好。
- 指望效用值，能表述人们主观价值的衡量指标，能综合衡量各类定性、定量的结果。
- 这个指标能够因人而异，视各人的经济、社会心理条件而定。
前景理论。在不一样的风险前景下作出的选择，与指望理论的基本原则并不一致。对于同一个决策者在不一样的条件下，它的风险厌恶与风险偏好都不是彻底绝对的。在肯定损失时会选择风险偏好，在肯定收益时则有风险厌恶的倾向。演变出前景理论，将我的风险决策过程分为两步：
- 编辑阶段。对所给前景作简单的分析，产生一个前景描述。
- 评价阶段。评价编辑过的前景，而后选择最大有效值的前景。

效用曲线的理解

风险中性型。斜率为1. 产出的增长量与获得的知足感相同的。
风险厌恶型。呈凸状。决策者基于摆脱差的产出带来的指望，此时的斜率比在好的产出时的斜率大，增加快。即基于摆脱差的结果，增加快，对于好的结果没太大感觉，增加慢。
风险偏好型。呈凹状。在差的结果时增加较慢，对差的结果没太大感觉，在好的结果时增加快，急于趋向好的结果。

反射效果

在肯定损失时会选择风险偏好，在肯定收益时则有风险厌恶的倾向。人们面临得到时，每每当心翼翼，不肯冒风险；而在面对损失时，人人都称冒险家了。我的注重的并非某个参考点的财富变更而是最终财富值的预期效用。

第十一章多目标决策

多目标决策的基本特色

多个目标。
目标之间的不可公度性。各个目标之间没有统一的度量单位。
目标之间的矛盾性。选择一种方案改进某一目标值，可能使另外一目标的值变坏。

劣解与非劣解

劣解：方案A的各目标均劣于另外一方案B的各目标，方案A能够直接舍去。这样的方案A称为劣解。
非劣解：既不能当即舍去，又不能当即肯定为最优解的方案。

多目标转为单目标的几种方法

主要目标优化兼顾其余目标的方法。（线性规划）
线性加权法。（分别给以权重系数相加构成新的目标函数，求最大值）
平方和加权法。（每一个目标分别给以一个满意值，目标值减去满意值获得新的序列后再进行线性加权，求最小值，最接近满意值）
乘除法。（目标值越小越好的目标相乘放在分子，目标值越大越好的目标相乘放在分母，求新的目标函数的最小值）
功效系数法。

网络分析法（ANP）与层级分析法（AHP）的不一样

网络分析法的决策原理与层次分析法基本相同，不一样的是前者创建的是网络结构模型，然后者创建的是层次结构模型。在层次分析法中，元素之间是按照层级结构排列的，并假设同层之间的元素是相互独立的，并且元素之间不存在反馈关系。可是在现实的复杂决策中这一假设每每不能被知足。网络分析法取消了这一假设，它以一种网络化的方式表达元素之间的相互关系，容许元素之间存在相互依赖关系和反馈关系，于是与现实问题更为接近，能够较为全面的分析有关问题。所以ANP（网络分析法）更为深入的描述了复杂度决策系统，而AHP（层次分析法）能够看作ANP（网络分析法）的一个特例。

模糊决策P323例题13-1，表13-2

肯定模糊关系矩阵R
根据主观因素，肯定因素权重向量A
向量A与模糊矩阵R之间运用合成算子（P325表13-2）的运算形式计算，得到模糊综合评价向量B。
将模糊综合评价向量B在横向上进一步合成，获得单一的综合评价值。

模糊评价的核心就是经过对模糊评价向量B的分析作出综合结论，进行模糊决策。