线性回归总结

时间 2019-11-26

标签线性回归总结栏目应用数学繁體版

原文原文链接

scikit-learn对于线性回归提供了比较多的类库，这些类库均可以用来作线性回归分析，本文就对这些类库的使用作一个总结，重点讲述这些线性回归算法库的不一样和各自的使用场景。算法

　　　　线性回归的目的是要获得输出向量 $Y$ 编程

　　　　为了获得线性回归系数 $θ$ 多线程

1. LinearRegression

　　　　损失函数：函数

　　　　LinearRegression类就是咱们平时说的最多见普通的线性回归，它的损失函数也是最简单的，以下：学习

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y)$ 测试

　　　　损失函数的优化方法：优化

　　　　对于这个损失函数，通常有梯度降低法和最小二乘法两种极小化损失函数的优化方法，而scikit中的LinearRegression类用的是最小二乘法。经过最小二乘法，能够解出线性回归系数 $θ$ ui

　　　　 $θ = (X^{T} X)^{- 1} X^{T} Y$ atom

　　　　验证方法：spa

　　　　LinearRegression类并无用到交叉验证之类的验证方法，须要咱们本身把数据集分红训练集和测试集，而后训练优化。

　　　　使用场景：

　　　　通常来讲，只要咱们以为数据有线性关系，LinearRegression类是咱们的首先。若是发现拟合或者预测的很差，再考虑用其余的线性回归库。若是是学习线性回归，推荐先从这个类开始第一步的研究。

2. Ridge

　　　　损失函数：　

　　　　因为第一节的LinearRegression没有考虑过拟合的问题，有可能泛化能力较差，这时损失函数能够加入正则化项，若是加入的是L2范数的正则化项，这就是Ridge回归。损失函数以下：

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y) + \frac{1}{2} α | | θ | |_{2}^{2}$

　　　　其中 $α$

　　　　Ridge回归在不抛弃任何一个特征的状况下，缩小了回归系数，使得模型相对而言比较的稳定，不至于过拟合。

　　　　损失函数的优化方法：

　　　　对于这个损失函数，通常有梯度降低法和最小二乘法两种极小化损失函数的优化方法，而scikit中的Ridge类用的是最小二乘法。经过最小二乘法，能够解出线性回归系数 $θ$

　　　　 $θ = (X^{T} X + α E)^{- 1} X^{T} Y$

　　　　其中E为单位矩阵。

　　　　验证方法：

　　　　Ridge类并无用到交叉验证之类的验证方法，须要咱们本身把数据集分红训练集和测试集，须要本身设置好超参数 $α$

　　　　使用场景：

　　　　通常来讲，只要咱们以为数据有线性关系，用LinearRegression类拟合的不是特别好，须要正则化，能够考虑用Ridge类。可是这个类最大的缺点是每次咱们要本身指定一个超参数 $α$

3. RidgeCV

　　　　RidgeCV类的损失函数和损失函数的优化方法彻底与Ridge类相同，区别在于验证方法。

　　　　验证方法：

　　　　RidgeCV类对超参数 $α$

　　　　使用场景：

　　　　通常来讲，只要咱们以为数据有线性关系，用LinearRegression类拟合的不是特别好，须要正则化，能够考虑用RidgeCV类。不是为了学习的话就不用Ridge类。为何这里只是考虑用RidgeCV类呢？由于线性回归正则化有不少的变种，Ridge只是其中的一种。因此可能须要比选。若是输入特征的维度很高，并且是稀疏线性关系的话，RidgeCV类就不合适了。这时应该主要考虑下面几节要讲到的Lasso回归类家族。

4. Lasso

　　　　损失函数：

　　　　线性回归的L1正则化一般称为Lasso回归，它和Ridge回归的区别是在损失函数上增长了的是L1正则化的项，而不是L2正则化项。L1正则化的项也有一个常数系数 $α$

　　　　 $J (θ) = \frac{1}{2 m} (X θ - Y)^{T} (X θ - Y) + α | | θ | |_{1}$

　　　　其中n为样本个数， $α$

　　　　Lasso回归可使得一些特征的系数变小，甚至仍是一些绝对值较小的系数直接变为0。加强模型的泛化能力。

　　　　损失函数的优化方法：

　　　　Lasso回归的损失函数优化方法经常使用的有两种，坐标轴降低法和最小角回归法。Lasso类采用的是坐标轴降低法，后面讲到的LassoLars类采用的是最小角回归法

　　　　验证方法：

　　　　Lasso类并无用到交叉验证之类的验证方法，和Ridge类相似。须要咱们本身把数据集分红训练集和测试集，须要本身设置好超参数 $α$

　　　　使用场景：

　　　　通常来讲，对于高维的特征数据，尤为线性关系是稀疏的，咱们会采用Lasso回归。或者是要在一堆特征里面找出主要的特征，那么Lasso回归更是首选了。可是Lasso类须要本身对 $α$

5. LassoCV　　　　

　　　　LassoCV类的损失函数和损失函数的优化方法彻底与Lasso类相同，区别在于验证方法。

　　　　验证方法：

　　　　LassoCV类对超参数 $α$

　　　　使用场景：　　

　　　　LassoCV类是进行Lasso回归的首选。当咱们面临在一堆高位特征中找出主要特征时，LassoCV类更是必选。当面对稀疏线性关系时，LassoCV也很好用。

6. LassoLars

　　　　LassoLars类的损失函数和验证方法与Lasso类相同，区别在于损失函数的优化方法。

　　　　损失函数的优化方法：

　　　　Lasso回归的损失函数优化方法经常使用的有两种，坐标轴降低法和最小角回归法。LassoLars类采用的是最小角回归法，前面讲到的Lasso类采用的是坐标轴降低法。　　　

　　　　使用场景：

　　　　LassoLars类须要本身对 $α$

7. LassoLarsCV

　　　　LassoLarsCV类的损失函数和损失函数的优化方法彻底与LassoLars类相同，区别在于验证方法。

　　　　验证方法：

　　　　LassoLarsCV类对超参数 $α$

　　　　使用场景：　　

　　　　LassoLarsCV类是进行Lasso回归的第二选择。第一选择是前面讲到LassoCV类。那么LassoLarsCV类有没有适用的场景呢？换句话说，用最小角回归法何时比坐标轴降低法好呢？场景一：若是咱们想探索超参数 $α$

8. LassoLarsIC

　　　　LassoLarsIC类的损失函数和损失函数的优化方法彻底与LassoLarsCV类相同，区别在于验证方法。

　　　　验证方法：

　　　　LassoLarsIC类对超参数 $α$

　　　　使用场景：

　　　　从验证方法能够看出，验证 $α$

9. ElasticNet

　　　　损失函数：

　　　　ElasticNet能够看作Lasso和Ridge的中庸化的产物。它也是对普通的线性回归作了正则化，可是它的损失函数既不全是L1的正则化，也不全是L2的正则化，而是用一个权重参数 $ρ$

　　　　 $J (θ) = \frac{1}{2 m} (X θ - Y)^{T} (X θ - Y) + α ρ | | θ | |_{1} + \frac{α (1 - ρ)}{2} | | θ | |_{2}^{2}$

　　　　其中 $α$

　　　　损失函数的优化方法：

　　　　ElasticNet回归的损失函数优化方法经常使用的有两种，坐标轴降低法和最小角回归法。ElasticNet类采用的是坐标轴降低法。

　　　　验证方法：

　　　　ElasticNet类并无用到交叉验证之类的验证方法，和Lasso类相似。须要咱们本身把数据集分红训练集和测试集，须要本身设置好超参数 $α$

　　　　使用场景：

　　　　ElasticNet类须要本身对 $α$

10. ElasticNetCV

　　　　ElasticNetCV类的损失函数和损失函数的优化方法彻底与ElasticNet类相同，区别在于验证方法。

　　　　验证方法：

　　　　ElasticNetCV类对超参数 $α$

　　　　使用场景：

　　　　ElasticNetCV类用在咱们发现用Lasso回归太过（太多特征被稀疏为0），而用Ridge回归又正则化的不够（回归系数衰减的太慢）的时候。通常不推荐拿到数据就直接就上ElasticNetCV。

11. OrthogonalMatchingPursuit

　　　　损失函数：

　　　　OrthogonalMatchingPursuit（OMP）算法和普通的线性回归损失函数的区别是增长了一个限制项，来限制回归系数中非0元素的最大个数。造成了一个全新的损失函数以下：

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y)$

　　　　subject to $| | θ | |_{0} \leq n_{n o n - z e r o - c o e f s}$

　　　　损失函数的优化方法：　　　

　　　　OrthogonalMatchingPursuit类使用前向选择算法来优化损失函数。它是最小角回归算法的缩水版。虽然精度不如最小角回归算法，可是运算速度很快。

　　　　验证方法：

　　　　OrthogonalMatchingPursuit类并无用到交叉验证之类的验证方法，和Lasso类相似。须要咱们本身把数据集分红训练集和测试集，须要本身选择限制参数 $n_{n o n - z e r o - c o e f s}$

　　　　使用场景：

　　　　OrthogonalMatchingPursuit类须要本身选择 $n_{n o n - z e r o - c o e f s}$

12. OrthogonalMatchingPursuitCV

　　　　OrthogonalMatchingPursuitCV类的损失函数和损失函数的优化方法彻底与OrthogonalMatchingPursuit类相同，区别在于验证方法。

　　　　验证方法：

　　　　OrthogonalMatchingPursuitCV类使用交叉验证，在S折交叉验证中以MSE最小为标准来选择最好的 $n_{n o n - z e r o - c o e f s}$

　　　　使用场景：

　　　　OrthogonalMatchingPursuitCV类一般用在稀疏回归系数的特征选择上，这点和LassoCV有相似的地方。不过因为它的损失函数优化方法是前向选择算法，精确度较低，通常状况不是特别推荐用，用LassoCV就够，除非你对稀疏回归系数的精确个数很在乎，那能够考虑用OrthogonalMatchingPursuitCV。

13. MultiTaskLasso

　　　　从这节到第16节，类里面都带有一个“MultiTask”的前缀。不过他不是编程里面的多线程，而是指多个线性回归模型共享样本特征，可是有不一样的回归系数和特征输出。具体的线性回归模型是 $Y = X W$

　　　　损失函数：

　　　　因为这里是多个线性回归一块儿拟合，因此损失函数和前面的都很不同：

　　　　 $J (W) = \frac{1}{2 m} (| | X W - Y | |)_{F r o}^{2} + α | | W | |_{21}$

　　　　其中， $(| | X W - Y | |)_{F r o}$

　　　　损失函数的优化方法：　　　

　　　　MultiTaskLasso类使用坐标轴降低法来优化损失函数。

　　　　验证方法：

　　　　MultiTaskLasso类并无用到交叉验证之类的验证方法，和Lasso类相似。须要咱们本身把数据集分红训练集和测试集，须要本身设置好超参数 $α$

　　　　使用场景：

　　　　MultiTaskLasso类须要本身对 $α$

14. MultiTaskLassoCV

　　　　MultiTaskLassoCV类的损失函数和损失函数的优化方法彻底与MultiTaskLasso类相同，区别在于验证方法。

　　　　验证方法：

　　　　MultiTaskLassoCV类对超参数 $α$

　　　　使用场景：

　　　　MultiTaskLassoCV是多个回归模型须要一块儿共享样本特征一块儿拟合时候的首选。它能够保证选到的特征每一个模型都用到。不会出现某个模型选到了某特征而另外一个模型没选到这个特征的状况。

15. MultiTaskElasticNet

　　　　损失函数：

　　　　MultiTaskElasticNet类和MultiTaskLasso类的模型是相同的。不过损失函数不一样。损失函数表达式以下：

　　　　 $J (W) = \frac{1}{2 m} (| | X W - Y | |)_{F r o}^{2} + α ρ | | W | |_{21} + \frac{α (1 - ρ)}{2} (| | W | |)_{F r o}^{2}$

　　　　其中， $(| | X W - Y | |)_{F r o}$

　　　　损失函数的优化方法：　　　

　　　　MultiTaskElasticNet类使用坐标轴降低法来优化损失函数。

　　　　验证方法：

　　　　MultiTaskElasticNet类并无用到交叉验证之类的验证方法，和Lasso类相似。须要咱们本身把数据集分红训练集和测试集，须要本身设置好超参数 $α$

　　　　使用场景：

　　　　MultiTaskElasticNet类须要本身对 $α$

16. MultiTaskElasticNetCV

　　　　MultiTaskElasticNetCV类的损失函数和损失函数的优化方法彻底与MultiTaskElasticNet类相同，区别在于验证方法。

　　　　验证方法：

　　　　MultiTaskElasticNetCV类对超参数 $α$

　　　　使用场景：

　　　　MultiTaskElasticNetCV是多个回归模型须要一块儿共享样本特征一块儿拟合时候的两个备选之一，首选是MultiTaskLassoCV。若是咱们发现用MultiTaskLassoCV时回归系数衰减的太快，那么能够考虑用MultiTaskElasticNetCV。　　　

17. BayesianRidge

　　　　第17和18节讲的都是贝叶斯回归模型。贝叶斯回归模型假设先验几率，似然函数和后验几率都是正态分布。先验几率是假设模型输出Y是符合均值为 $X θ$

　　　　此处对损失函数即负的最大化边际似然函数很少讨论，不过其形式和Ridge回归的损失函数很像，因此也取名BayesianRidge。

　　　　使用场景：

　　　　若是咱们的数据有不少缺失或者矛盾的病态数据，能够考虑BayesianRidge类，它对病态数据鲁棒性很高，也不用交叉验证选择超参数。可是极大化似然函数的推断过程比较耗时，通常状况不推荐使用。

18. ARDRegression

　　　　ARDRegression和BayesianRidge很像，惟一的区别在于对回归系数 $θ$

　　　　ARDRegression也是经过最大化边际似然函数来估计超参数 $α$

　　　　使用场景：

若是咱们的数据有不少缺失或者矛盾的病态数据，能够考虑BayesianRidge类，若是发现拟合很差，能够换ARDRegression试一试。由于ARDRegression对回归系数先验分布的假设没有BayesianRidge严格，某些时候会比BayesianRidge产生更好的后验结果。