机器学习&数据挖掘笔记_12（对Conjugate Gradient 优化的简单理解）

时间 2019-11-05

标签机器学习数据挖掘笔记 conjugate gradient 优化简单理解繁體版

原文原文链接

　　数学优化方法在机器学习算法中相当重要，本篇博客主要来简单介绍下Conjugate Gradient(共轭梯度法，如下简称CG)算法，内容是参考的文献为：An Introduction to the Conjugate Gradient Method Without the Agonizing Pain，具体细节你们还需仔细阅读那篇文章，这篇博客并非重现那篇论文的内容，只是简单的梳理下CG算法的流程，以及它的重要思路，方便你们理解CG算法。算法

　　首先咱们须要解决的问题是：求知足线性方程(1)：的解x.机器学习

　　那么有人就这么认为了：这个解x不就是吗？对，这样说也不能算错，可是若是A不可逆那么x这样就解不出来了。另外当A矩阵的尺度很是大时（好比几百万维），即便其逆存在，这样计算的计算量也太大。而CG算法则能够经过少数的几步迭代来求出其近似解，虽然求出的解是近似的，可是其精度能够达到很高，彻底能够知足咱们的需求。学习

　　下面就来看看CG算法实现时的大概流程：优化

　　1. 随机选取一个初始点，记为，并记为此时方程(1)的残差，记第一个搜索方向为，搜索步长为.spa

　　2. 如今假设咱们已经按照某个迭代公式在第k步求出了，此时的残差，前面k次的搜索方向分别为,很明显这些变量都是已知的，而如今咱们须要求的是第k次的搜索方向.在CG理论中，有这么一个假设，即为,的线性组合，记为.blog

　　3. 为了求出，就必须求出系数，怎么求呢？CG理论中另一个性质就是：和这k个向量关于A共轭，即知足共轭方程，其中0<=j<=k-1. 下面就能够利用该性质列出k个方程来求解这些系数了，其结果为：当0<=j<k-1时，系数；当j=k-1时，系数. 所以此时的搜索方向.博客

　　4. 既然的值有了，搜索方向也有了，下一步就改肯定搜索步长了，求它的思想是使取得极值，即导数为0。一旦求出了，则下一个迭代点也就求出了。表达式对求导为0后可求得.数学

　　5. 循环步骤2,3,4，直到知足收敛条件。it

　　上面只是CG算法的基本版本，而常见的CG算法版本是针对上面的计算公式和做了进一步推导，利用Krylov 子空间的一些性质，最后简化为：和，同时对残差也是通过迭代获得（此处省略）。由简化先后（此处省略N公式）对比可知，将原先表达式中一些矩阵和向量的乘积运算量减少了，由于很大一部分矩阵乘向量都转换成了向量乘向量。io

　　最后附上论文中关于CG算法的流程图，你们能够参考上面5个步骤来理解CG的主要思路，本博客中的符号可能和论文中的不必定相同，且公式也不必定是正确的，博文只是让你们知道这些公式是由什么理论推出的，有个宏观认识，一切需以论文中的内容为主。

　　参考资料：

　　Shewchuk, J. R. (1994). An introduction to the conjugate gradient method without the agonizing pain, Carnegie Mellon University, Pittsburgh, PA.