数学建模——统计回归模型

时间 2020-02-17 标签数学建模统计回归模型

前言：看完数学建模的统计回归模型，更是感到了数学建模的“细腻”之处，对比与机器学习，若是说机器学习像是“打一场仗”，那数学建模更是像“作一场手术”，一个简单的回归问题也能够从中感受到他“细腻”的美感web

回归模型是利用统计分析方法创建的最经常使用的一个模型，下面将经过对软件获得的结果进行分析，进而改进咱们的模型。机器学习

下面将用3个例子展现对回归模型的优化。svg

1.牙膏的销售模型

问题的提出：假设一个公司须要预测不一样价格和广告费用下的牙膏的销售量，咱们须要怎么创建模型呢？函数

假设咱们拿到的数据以下：
学习

咱们能够根据数据创建一个基本的模型：
$y：公司牙膏销售量$
$x_1：价格差$
$x_2：公司广告的费用$ 优化

模型为： $y=\beta_0 + \beta_1 x_1 +\beta_2 x_2+\beta_3 x_2^2 + \epsilon$ atom

求解这个模型咱们会获得下面的结果：
spa

这说明y的90.54%能够由模型肯定，x2对因变量y 的影响不太显著（由于 $\beta_2 的置信区间包括0点$ ）。3d

这些数据具体到公司的销售量到底意味着什么呢？code

假设咱们把控制价格差 $x_1=0.2$ ，投入广告费 $x_2=650$ 万，根据咱们的模型能够求出y的值为8.2933（百万支），销售量的预测区间为[7.8230，8.7636]。

那么咱们就有95%把握知道销售量在7.8320百万支以上。

优化——加入交互项

刚才咱们只考虑了每一个因素单独的影响，如今咱们考虑他们的影响有交互做用，即咱们的模型变为：

$y=\beta_0 + \beta_1 x_1 +\beta_2 x_2+\beta_3 x_2^2 +\beta_4 x_1x_2 + \epsilon$

从而求得的结果为：

这是后仍控制价格差x1为0.2，投入广告费用x2位6.5百万，咱们获得的销售量为8.3272，可见比原来有所增长，预测区间变为[7.8953，8.7592]，预测区间缩短。

下面是模型的比较：

那么加入交互项对模型有什么影响呢？

由上图可见加入交互项以后函数的变化更加明显，咱们也能够从中获得一些启发，好比下图咱们用了不一样的价格差，对广告费（ $x_2$ ）用和销售量（y）进行比较：

由上图咱们能够容易的总结出如下两条：

广告费用小于7左右的时候，价格优点的做用更加明显，价格低的销售量多。
当广告费大于6百万的时候，价格差小的，销售良随着广告的增长而增长的速率更快，因此此时应该增长广告来吸引眼球。

2.软件开发人员的薪金

创建模型研究薪金与资历、管理责任、教育程度的关系，从而分析人事策略的合理性，做为新聘用人员薪金的参考

数据为46个开发人员的薪资

资历~ 从事专业工做的年数；管理~ 1=管理人员，0=非管理人员；教育~ 1=中学，2=大学，3=更高程度

创建基本模型
$y~ 薪金，x_1 ~资历（年）$
$x_2 = 1~ 管理人员，x_2 = 0~ 非管理人员$
$x_3=1~ 中学，x_3=0~其它$
$x_4=1~大学，x_4=0~其它$
因此：
$中学：x_3=1, x_4=0 ；大学：x_3=0, x_4=1；更高：x_3=0, x_4=0$

回归模型为：
$y=a_0 + a_1 x_1 +a_2 x_2+a_3 x_3 +a_4 x_4 + \epsilon$

获得结果：

咱们能够从获得结果分析：

资历增长1年薪金增加546
管理人员薪金多6883
中学程度薪金比更高的少2994
大学程度薪金比更高的多148

a4置信区间包含零点，解释不可靠!

优化——残差分析

残差： $e=y-\hat{y}$

残差与资历x1的关系

可见残差的波动较大

管理与教育的组合一共有6种：

比较残差和管理——教育组合的关系：

残差全为正，或全为负，管理—教育组合处理不当，应在模型中增长管理x2与教育x3, x4的交互项

改进的模型

$y=a_0 + a_1 x_1 +a_2 x_2+a_3 x_3 +a_4 x_4 +a_5 x_2 x_3 +a_5 x_2 x_4+ \epsilon$

去除异常的值

R,F有改进，全部回归系数置信区间都不含零点，模型彻底可用

由此能够定制6种管理—教育组合人员的“基础”薪金(资历为0）

大学程度管理人员比更高程度管理人员的薪金高
大学程度非管理人员比更高程度非管理人员的薪金略低

总结一下
咱们利用了残差分析法发现模型的缺陷，而且由前两个咱们也能够发现，引入交互项每每可以改进模型

3.投资额与国民生产总值和物价指数

根据对将来国民生产总值（GNP）及物价指数（PI）的估计，预测将来投资额

该地区连续20年的统计数据

首先创建基本的统计回归模型：
$t -年份， y_t -投资额，x_{1t}- GNP, x_{2t} - 物价指数$

模型为： $y_t = \beta_0 +\beta _1 x_{1t}+\beta_2 x_{2t}+\epsilon$

根据数据获得的结果：

此模型不足的地方：

没有考虑时间序列数据的滞后性影响
可能忽视了随机偏差存在自相关；若是存在自相关性，用此模型会有不良后果

模型自相关的诊断

定性诊断——残差分析

模型残差： $e_t =y_t - \hat{y}_t$
$e_{t-1}$ 表示上一个数据的残差

画出 $e_t -e_{t-1}$ 的散点图

由图可见，大部分点落在1，3象限，说明有正的自相关

因此直观的判断该模型有正的自相关

定量诊断——D-W检验

咱们引入自相关回归系数 $ρ$ ，当 $ρ=0$ 表示无自相关性， $ρ>0$ 表示存在正自相关性, $ρ<0$ 表示存在负自相关性

Q1:如何估计 $ρ$ ？
A1：D-W统计量

D-W统计量的计算

由D-W值的大小肯定自相关性：

那如何知道dL和dU呢？这是能够查表的。

Q2:如何消除自相关性？
A2：广义分差法

咱们经过上面能够求得DW值和dL以及dU，那咱们计算 $ρ=1-DW/2$ 就能够知道是否存在自相关性了

例如咱们样本容量n=20，回归变量数目k=3，a=0.05 ，咱们能够查到临界值dL=1.10, dU=1.54

$ρ=1-DW/2=0.5623$ ，说明存在正的自相关性。

因而咱们就能够获得新的模型：

咱们能够根据这个模型咱们能够再作一次自相关性的检测，发现新的模型已经没有自相关性了。

最后咱们就能够根据新的自相关模型进行对下一年数据的预测了。

总结一下

在面对与时间有关的数据的时候，咱们经常要检测模型的自相关性，消除了模型的自相关性以后才能创建更加精确的模型。

经常经过D-W方法检测模型的自相关性，用广义差分法消除模型的自相关性。

浓度等后一个量每每受前一个量的影响，在创建模型时每每要考虑前一个值得影响