从统计看机器学习(一) 一元线性回归

  从统计学的角度来看,机器学习大多的方法是统计学中分类与回归的方法向工程领域的推广。安全

  “回归”(Regression)一词的滥觞是英国科学家Francis Galton(1822-1911)在1886年的论文[1]研究孩子身高与父母身高之间的关系。观察1087对夫妇后,得出成年儿子身高=33.73+0.516*父母平均身高(以英寸为单位).他发现孩子的身高与父母的身高相比更加温和:若是父母均很是高,那么孩子身高更倾向于很高但比父母矮;若是父母均很是矮,那么孩子身高更倾向于很矮但比父母高。这个发现被他称做"回归到均值"(regression to the mean).这也说明了的回归模型是软模型,回归模型更多的刻画了事物间的相关性而非因果性,它并不像物理模型或是一些函数(例如开普勒行星运动定律)那样严格苛刻。机器学习

1.从一元线性回归提及函数

  咱们判断体重是否合理时,却要先量量本身的身高。由于不管在生理角度仍是审美角度,体重与身高是有关系的。一般可认为人体是均匀的,即身高与体重间的关系是线性的,那么咱们无非但愿创建一个一元线性回归模型学习

y=β01x+ε,
优化

x是当前的身高、ε是偏差项,β0与β1是两个常数,一般认为每一个身高下的ε都是独立的,且服从均值为0,方差为σ2的正态分布,记做ε-i.i.d~N(0,σ2).因为存在偏差,当前身高x下的体重y,记做y|x,一样存在y|x~N(β01x,σ2),所以咱们将本身的身高x带入,就能够获得该身高下体重均值,而且有99.74%的把握认为该身高下,体重应该在(β01x-3σ,β01x+3σ)之间。固然,若是偏离了这个区间,体重就是不标准的,可是,这也要求σ的值不能太大。
spa

  一元线性回归就是要经过样本数据估计出β0与β1这两个常数的取值。固然,这是个仁者见仁、智者见智的问题,体重偏瘦的人为了保持身材,不但愿有胖子的数据干扰模型;胖子会为了控制体重仅选择身高-体重最标准的人数据。固然,考虑女生身高与体重关系时选择男生的数据也是不合理的。咱们依据本身的标准,选择不一样身高下n我的的身高-体重数据(x1, y1), (x2, y2) ,…, (xn, yn),用最小二乘法获得β0、β1的估计值:blog

因为样本数据是咱们按照规则挑选出来的,能够认为几乎不存在噪声数据,即σ的值不会太大,所以,当前身高下标准的体重范围也会缩小,使得模型更加精准有效。这样使用最小二乘法获得经验回归方程,即获得这样的一条直线ci

是安全的。经验回归方程对样本中的任意的身高xi的都能给出体重的估计值,体重的真实值与估计值的差称为真实的残差it

因为残差存在正负,为了累计残差的效果,将所有样本点的残差进行平方再求和就获得了残差平方和。最小二乘法就是求解让残差平方和达到最小的优化问题。最小二乘法是让经验回归模型对全体样本的冲突达到最小,即便经验回归模型不通过样本中的任意一个点,但它会通过样本的均值点io

2.模型参数的估计过程

3.最小二乘估计的性质

首先,最小二乘估计是线性的。β01的估计值是y1,y2,…,yn的线性组合。同时,该估计是无偏的,即β01的估计值的指望分别与β01相同。

考虑模型是否有效,咱们就要求估计值的方差

综上,对于给定的x0,y0的估计值服从与如下正态分布

  这说明了在经验回归模型中,不一样xi的估计值是无偏的,但方差大小通常不一样。最小二乘法是惟一方差最小的无偏估计,也就是说,在全体的无偏模型中,最小二乘法的估计效果是最好的。从y0的估计值分布中咱们能够看出,若是想减少模型的方差,就要扩大样本容量,即增大n的值。同时,尽量使样本的分散以增大Lxx.回到上面的体重-身高建模问题,若是选择不一样身高、相同性别且体重-身高比例均为标准的人,那么运用最小二乘法很容易估计出该性别下最标准体重-身高的线性关系。

 

[1]Regression towards mediocrity in hereditary stature. Francis Galton, Journal of the Anthropological Institute, 1886, 15: 246 – 263

相关文章
相关标签/搜索