线性回归

时间 2021-01-31

标签 ide 函数 spa 设计 blog get ast class 效率基础栏目应用数学繁體版

原文原文链接

什么是线性回归ide

不一样于分类问题的待预测变量为离散变量，回归问题中待预测变量即因变量为连续变量。人们在测量事物的时候由于客观条件所限，求得的都是测量值，而不是事物真实的值，为了可以获得真实值，无限次的进行测量，最后经过这些测量数据计算回归到真实值，这就是回归的由来。函数

线性回归假设自变量与因变量之间存在的是一次函数关系，即线性关系。spa

设全部样本的特征为\(X\in \mathbb{R}^{n*m}\)，输出为\(Y\in \mathbb{R}^{n*1}\)，其中n为样本数，m为特征数。线性回归假设存在权重项\(W\in \mathbb{R}^{m*1}\)和偏置项\(b\in \mathbb{R}\)，使得\(\widehat Y=XW+b\)，其中\(\widehat Y\)为对Y的预测值。为了简化表达，给X添加一列1，将偏置项并入权重项，则\(\widehat Y=XW\) ，其中\(X\in \mathbb{R}^{n*(m+1)}\)，\(W\in \mathbb{R}^{(m+1)*1}\)。设计
线性回归求解blog

线性回归以均方偏差为损失函数，该方法称为方法称为最小二乘法。get

为了方面后面的计算，增长了\(\frac{1}{2n}\)做为因子，即损失函数为：ast

\[J=\frac{1}{2n}(XW-Y)^T(XW-Y)=\frac{1}{2n}(W^TX^TXW-W^TX^TY-Y^TXW+Y^TY) \]
损失函数对权重求导：class

\[\frac{\partial J}{\partial W}=\frac{1}{n}X^T(XW-Y) \]
令导数等于0，得：效率

\[W^*=(X^TX)^{-1}X^TY \]
当\(X^TX\)满秩或者正定的时候，能够直接由上式求得闭式解。当不知足时，可使用梯度降低法求解。基础
使用均方偏差解释线性回归

对于第i个样本\((x_i,y_i)\)，假设\(y_i=W^Tx_i+\epsilon_i\)，其中\(\epsilon_i\)为偏差项。因为影响偏差的因素有不少，而这些因素都是独立且随机分布的，根据中心极限定理——许多独立随机变量的和趋向于正态分布，所以能够假设：

\[\epsilon_i\sim N(0,\sigma^2) \]
\(\epsilon_i\)是独立同分布的随机变量。则当给定了参数W和输入\(x_i\)时\(\epsilon_i\)的几率密度为：

\[P(\epsilon_i|x_i;W)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{\epsilon_i^2}{2\sigma^2}} \]
因为\(\epsilon_i=y_i-W^Tx_i\)，有：

\[P(y_i|x_i;W)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-W^Tx_i)^2}{2\sigma^2}} \]
即\(y_i\)也服从正态分布，则似然函数为：

\[l(W)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-W^Tx_i)^2}{2\sigma^2}} \]
对数似然函数为：

\[L(W)=-n\ln \sqrt{2\pi}\sigma-\sum_{i=1}^n\frac{(y_i-W^Tx_i)^2}{2\sigma^2} \]
最大化似然函数：

\[\arg\max_W L(W)=\arg\max_W -n\ln \sqrt{2\pi}\sigma-\sum_{i=1}^n\frac{(y_i-W^Tx_i)^2}{2\sigma^2} \\ =\arg\min_W \sum_{i=1}^n(y_i-W^Tx_i)^2 \\ =\arg\min_W \frac{1}{2n}(XW-Y)^T(XW-Y) \]
即最大化似然函数等价于最小化均方偏差，即最小二乘法其实是在假设偏差项知足高斯分布且独立同分布状况下，使似然性最大化。
正则化方法

正则化方法是指在原损失函数的基础上加上一个正则化项，用来控制参数幅度或者是限制参数搜索空间，从而下降过拟合。线性回归经常使用的正则化方法有L1正则化（Lasso回归）、L2正则化（岭回归）、ElasticNet回归。
- L1正则化（Lasso回归）
  
  L1正则化至关于在原有损失函数的基础上加上加权的参数L1范数做为正则化项，即：
  
  \[J'=J+\lambda\sum|w| \]
  下图为其在二维时的参数空间：
  
  图中彩色部分为原损失函数的等高线，紫色部分为其最小值附近；黑色菱形为L1正则化项等高线，易知最优解一定在两组等高线的切点处，而这个交点很容易出如今坐标轴上，使得部分参数取值为0。这说明L1正则化容易获得稀疏解。
  
  此时因为绝对值函数在w=0处不可导，故不能直接采用梯度降低法，此时能够采用此梯度降低法或者坐标降低法，具体可参考：https://zhuanlan.zhihu.com/p/76055830。
- L2正则化（岭回归）
  
  L2正则化至关于在原有损失函数的基础上加上加权的参数L2范数做为正则化项，即：
  
  \[J'=J+\lambda\sum|w|^2 \]
  下图为其在二维时的参数空间：
  
  图中彩色部分为原损失函数的等高线，紫色部分为其最小值附近；黑色圆形为L2正则化项等高线，易知最优解一定在两组等高线的切点处，而这个交点很难出如今坐标轴上，这说明L2正则化不容易获得稀疏解。
- 从贝叶斯角度看L1和L2正则化
  
  L1 正则化能够当作是：经过假设权重参数W的先验分布为拉普拉斯分布，由最大后验几率估计导出。
  
  L2 正则化能够当作是：经过假设权重参数W的先验分布为正态分布，由最大后验几率估计导出。
  
  具体能够参考https://zhuanlan.zhihu.com/p/56185913。
- ElasticNet回归
  
  ElasticNet综合了L1正则化项和L2正则化项，如下是它的公式：
  
  \[J'=J+\lambda_1\sum|w|+\lambda_2\sum|w|^2 \]
- 正则化方法的选择
  
  只要数据线性相关，但用线性回归拟合的不是很好时就能够选择添加正则化项。若是输入特征的维度很高,并且是稀疏线性关系的话能够尝试L1正则化，不然能够尝试使用L2正则化。
  
  在咱们发现用L1正则化太过(太多特征被稀疏为0),而L2正则化也正则化的不够(回归系数衰减太慢)的时候，能够考虑使用ElasticNet回归来综合，获得比较好的结果。
局部加权线性回归

局部加权线性回归是普通线性回归的一个改进，普通的线性回归努力寻找一个使得全局代价函数最小的模型。这个模型对于总体来讲是最好的，但对于局部点来讲，可能不是最好的。

局部加权线性回归的基本思想：设计代价函数时，待预测点附近的点拥有更高的权重，权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。

局部加权线性回归的损失函数为：

\[J=\sum_{i=1}^n\theta_i(y_i-W^Tx_i)^2 \\ \theta_i=e^{-\frac{(x-x_i)^2}{2\sigma^2}} \]
其中\(w_i\)为训练集中第i个样本的权重，其图像相似于正态分布。\(\sigma\)越小图像越“瘦”，即权重衰减的越快，与x相距越远的样本权重越小。

求导可得局部加权线性回归的闭式解为：

\[W^*=(X^T\theta X)^{-1}X^T\theta Y \]
其中\(\theta=diag(\theta_1,\theta_2,...,\theta_n)\)。

局部加权回归的优势：
- 须要预测的数据仅与到训练数据的距离有关，距离越近，关系越大，反之越小；
- 能够有效避免欠拟合，减少了较远数据的干扰，仅与较近的数据有关。
局部加权回归的缺点：
- 计算效率低；
- 容易过拟合。