数学建模——统计回归模型

前言:看完数学建模的统计回归模型,更是感到了数学建模的“细腻”之处,对比与机器学习,若是说机器学习像是“打一场仗”,那数学建模更是像“作一场手术”,一个简单的回归问题也能够从中感受到他“细腻”的美感web

回归模型是利用统计分析方法创建的最经常使用的一个模型,下面将经过对软件获得的结果进行分析,进而改进咱们的模型。机器学习

下面将用3个例子展现对回归模型的优化。svg

1.牙膏的销售模型

问题的提出:假设一个公司须要预测不一样价格和广告费用下的牙膏的销售量,咱们须要怎么创建模型呢?函数

假设咱们拿到的数据以下:
这里写图片描述学习

咱们能够根据数据创建一个基本的模型:
y
x 1
x 2 广 优化

模型为: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 2 + ϵ atom

求解这个模型咱们会获得下面的结果:
这里写图片描述spa

这说明y的90.54%能够由模型肯定,x2对因变量y 的影响不太显著(由于 β 2 0 )。3d

这些数据具体到公司的销售量到底意味着什么呢?code

假设咱们把控制价格差 x 1 = 0.2 ,投入广告费 x 2 = 650 万,根据咱们的模型能够求出y的值为8.2933(百万支),销售量的预测区间为[7.8230,8.7636]。

那么咱们就有95%把握知道销售量在7.8320百万支以上。

优化——加入交互项

刚才咱们只考虑了每一个因素单独的影响,如今咱们考虑他们的影响有交互做用,即咱们的模型变为:

y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 2 + β 4 x 1 x 2 + ϵ

从而求得的结果为:
这里写图片描述

这是后仍控制价格差x1为0.2,投入广告费用x2位6.5百万,咱们获得的销售量为8.3272,可见比原来有所增长,预测区间变为[7.8953,8.7592],预测区间缩短。

下面是模型的比较:
这里写图片描述

那么加入交互项对模型有什么影响呢?

由上图可见加入交互项以后函数的变化更加明显,咱们也能够从中获得一些启发,好比下图咱们用了不一样的价格差,对广告费( x 2 )用和销售量(y)进行比较:
这里写图片描述

由上图咱们能够容易的总结出如下两条:

  • 广告费用小于7左右的时候,价格优点的做用更加明显,价格低的销售量多。

  • 当广告费大于6百万的时候,价格差小的,销售良随着广告的增长而增长的速率更快,因此此时应该增长广告来吸引眼球。

2.软件开发人员的薪金

创建模型研究薪金与资历、管理责任、教育程度的关系,从而分析人事策略的合理性,做为新聘用人员薪金的参考

数据为46个开发人员的薪资
这里写图片描述
资历~ 从事专业工做的年数;管理~ 1=管理人员,0=非管理人员;教育~ 1=中学,2=大学,3=更高程度

创建基本模型
y   x 1  
x 2 = 1   x 2 = 0  
x 3 = 1   x 3 = 0  
x 4 = 1   x 4 = 0  
因此:
x 3 = 1 , x 4 = 0 x 3 = 0 , x 4 = 1 x 3 = 0 , x 4 = 0

回归模型为:
y = a 0 + a 1 x 1 + a 2 x 2 + a 3 x 3 + a 4 x 4 + ϵ

获得结果:
这里写图片描述

咱们能够从获得结果分析:

  • 资历增长1年薪金增加546
  • 管理人员薪金多6883
  • 中学程度薪金比更高的少2994
  • 大学程度薪金比更高的多148

a4置信区间包含零点,解释不可靠!

优化——残差分析

残差 e = y y ^

残差与资历x1的关系
这里写图片描述
可见残差的波动较大

管理与教育的组合一共有6种:
这里写图片描述
比较残差和管理——教育组合的关系:
这里写图片描述

残差全为正,或全为负,管理—教育组合处理不当 ,应在模型中增长管理x2与教育x3, x4的交互项

改进的模型

y = a 0 + a 1 x 1 + a 2 x 2 + a 3 x 3 + a 4 x 4 + a 5 x 2 x 3 + a 5 x 2 x 4 + ϵ

这里写图片描述
去除异常的值

R,F有改进,全部回归系数置信区间都不含零点,模型彻底可用

由此能够定制6种管理—教育组合人员的“基础”薪金(资历为0)
这里写图片描述

  • 大学程度管理人员比更高程度管理人员的薪金高
  • 大学程度非管理人员比更高程度非管理人员的薪金略低

总结一下
咱们利用了残差分析法发现模型的缺陷,而且由前两个咱们也能够发现,引入交互项每每可以改进模型

3.投资额与国民生产总值和物价指数

根据对将来国民生产总值(GNP)及物价指数 (PI)的估计,预测将来投资额

该地区连续20年的统计数据
这里写图片描述

首先创建基本的统计回归模型:
t y t x 1 t G N P , x 2 t

模型为: y t = β 0 + β 1 x 1 t + β 2 x 2 t + ϵ

根据数据获得的结果:
这里写图片描述

此模型不足的地方:

  • 没有考虑时间序列数据的滞后性影响
  • 可能忽视了随机偏差存在自相关;若是存在自相关性,用此模型会有不良后果

模型自相关的诊断

定性诊断——残差分析

模型残差: e t = y t y ^ t
e t 1 表示上一个数据的残差

画出 e t e t 1 的散点图
这里写图片描述
由图可见,大部分点落在1,3象限,说明有正的自相关

因此直观的判断该模型有正的自相关

定量诊断——D-W检验

咱们引入自相关回归系数 ρ ,当 ρ = 0 表示无自相关性, ρ > 0 表示存在正自相关性, ρ < 0 表示存在负自相关性

Q1:如何估计 ρ
A1:D-W统计量

D-W统计量的计算
这里写图片描述

由D-W值的大小肯定自相关性:
这里写图片描述

那如何知道dL和dU呢?这是能够查表的。
这里写图片描述

Q2:如何消除自相关性?
A2:广义分差法

这里写图片描述

咱们经过上面能够求得DW值和dL以及dU,那咱们计算 ρ = 1 D W / 2 就能够知道是否存在自相关性了

例如咱们样本容量n=20,回归变量数目k=3,a=0.05 ,咱们能够查到临界值dL=1.10, dU=1.54

ρ = 1 D W / 2 = 0.5623 ,说明存在正的自相关性。

因而咱们就能够获得新的模型:
这里写图片描述

咱们能够根据这个模型咱们能够再作一次自相关性的检测,发现新的模型已经没有自相关性了。

最后咱们就能够根据新的自相关模型进行对下一年数据的预测了。

总结一下

  • 在面对与时间有关的数据的时候,咱们经常要检测模型的自相关性,消除了模型的自相关性以后才能创建更加精确的模型。

  • 经常经过D-W方法检测模型的自相关性,用广义差分法消除模型的自相关性。

  • 浓度等后一个量每每受前一个量的影响,在创建模型时每每要考虑前一个值得影响