奇异值分解(SVD)原理与在降维中的应用

时间 2019-12-13

标签奇异分解 svd 原理应用繁體版

原文原文链接

　　　　奇异值分解(Singular Value Decomposition，如下简称SVD)是在机器学习领域普遍应用的算法，它不光能够用于降维算法中的特征分解，还能够用于推荐系统，以及天然语言处理等领域。是不少机器学习算法的基石。本文就对SVD的原理作一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。html

1. 回顾特征值和特征向量

　　　　咱们首先回顾下特征值和特征向量的定义以下：$$Ax=\lambda x$$算法

　　　　其中A是一个$n \times n$的实对称矩阵，$x$是一个$n$维向量，则咱们说$\lambda$是矩阵A的一个特征值，而$x$是矩阵A的特征值$\lambda$所对应的特征向量。app

　　　　求出特征值和特征向量有什么好处呢？就是咱们能够将矩阵A特征分解。若是咱们求出了矩阵A的$n$个特征值$\lambda_1 \leq \lambda_2 \leq ... \leq \lambda_n$,以及这$n$个特征值所对应的特征向量$\{w_1,w_2,...w_n\}$，，若是这$n$个特征向量线性无关，那么矩阵A就能够用下式的特征分解表示：$$A=W\Sigma W^{-1}$$机器学习

　　　　其中W是这$n$个特征向量所张成的$n \times n$维矩阵，而$\Sigma$为这n个特征值为主对角线的$n \times n$维矩阵。post

　　　　通常咱们会把W的这$n$个特征向量标准化，即知足$||w_i||_2 =1$, 或者说$w_i^Tw_i =1$，此时W的$n$个特征向量为标准正交基，知足$W^TW=I$，即$W^T=W^{-1}$, 也就是说W为酉矩阵。学习

　　　　这样咱们的特征分解表达式能够写成$$A=W\Sigma W^T$$大数据

　　　　注意到要进行特征分解，矩阵A必须为方阵。那么若是A不是方阵，即行和列不相同时，咱们还能够对矩阵进行分解吗？答案是能够，此时咱们的SVD登场了。htm

2. SVD的定义

　　　　SVD也是对矩阵进行分解，可是和特征分解不一样，SVD并不要求要分解的矩阵为方阵。假设咱们的矩阵A是一个$m \times n$的矩阵，那么咱们定义矩阵A的SVD为：$$A = U\Sigma V^T$$blog

　　　　其中U是一个$m \times m$的矩阵，$\Sigma$是一个$m \times n$的矩阵，除了主对角线上的元素之外全为0，主对角线上的每一个元素都称为奇异值，V是一个$n \times n$的矩阵。U和V都是酉矩阵，即知足$U^TU=I, V^TV=I$。下图能够很形象的看出上面SVD的定义：索引

　　　　那么咱们如何求出SVD分解后的$U, \Sigma, V$这三个矩阵呢？

　　　　若是咱们将A的转置和A作矩阵乘法，那么会获得$n \times n$的一个方阵$A^TA$。既然$A^TA$是方阵，那么咱们就能够进行特征分解，获得的特征值和特征向量知足下式：$$(A^TA)v_i = \lambda_i v_i$$

　　　　这样咱们就能够获得矩阵$A^TA$的n个特征值和对应的n个特征向量$v$了。将$A^TA$的全部特征向量张成一个$n \times n$的矩阵V，就是咱们SVD公式里面的V矩阵了。通常咱们将V中的每一个特征向量叫作A的右奇异向量。

　　　　若是咱们将A和A的转置作矩阵乘法，那么会获得$m \times m$的一个方阵$AA^T$。既然$AA^T$是方阵，那么咱们就能够进行特征分解，获得的特征值和特征向量知足下式：$$(AA^T)u_i = \lambda_i u_i$$

　　　　这样咱们就能够获得矩阵$AA^T$的m个特征值和对应的m个特征向量$u$了。将$AA^T$的全部特征向量张成一个$m \times m$的矩阵U，就是咱们SVD公式里面的U矩阵了。通常咱们将U中的每一个特征向量叫作A的左奇异向量。

　　　　U和V咱们都求出来了，如今就剩下奇异值矩阵$\Sigma$没有求出了。因为$\Sigma$除了对角线上是奇异值其余位置都是0，那咱们只须要求出每一个奇异值$\sigma$就能够了。

　　　　咱们注意到:$$A=U\Sigma V^T \Rightarrow AV=U\Sigma V^TV \Rightarrow AV=U\Sigma \Rightarrow Av_i = \sigma_i u_i \Rightarrow \sigma_i = Av_i / u_i $$

　　　这样咱们能够求出咱们的每一个奇异值，进而求出奇异值矩阵$\Sigma$。

　　　上面还有一个问题没有讲，就是咱们说$A^TA$的特征向量组成的就是咱们SVD中的V矩阵，而$AA^T$的特征向量组成的就是咱们SVD中的U矩阵，这有什么根据吗？这个其实很容易证实，咱们以V矩阵的证实为例。$$A=U\Sigma V^T \Rightarrow A^T=V\Sigma^T U^T \Rightarrow A^TA = V\Sigma^T U^TU\Sigma V^T = V\Sigma^2V^T$$

　　　　上式证实使用了:$U^TU=I, \Sigma^T\Sigma=\Sigma^2。$能够看出$A^TA$的特征向量组成的的确就是咱们SVD中的V矩阵。相似的方法能够获得$AA^T$的特征向量组成的就是咱们SVD中的U矩阵。

　　　　进一步咱们还能够看出咱们的特征值矩阵等于奇异值矩阵的平方，也就是说特征值和奇异值知足以下关系：$$\sigma_i = \sqrt{\lambda_i}$$

　　　　这样也就是说，咱们能够不用$ \sigma_i = Av_i / u_i$来计算奇异值，也能够经过求出$A^TA$的特征值取平方根来求奇异值。

3. SVD计算举例

　　　　这里咱们用一个简单的例子来讲明矩阵是如何进行奇异值分解的。咱们的矩阵A定义为：

$$\mathbf{A} =
\left( \begin{array}{ccc}
0& 1\\ 1& 1\\
1& 0 \end{array} \right)$$

　　　　咱们首先求出$A^TA$和$AA^T$

$$\mathbf{A^TA} =
\left( \begin{array}{ccc}
0& 1 &1\\
1&1& 0 \end{array} \right) \left( \begin{array}{ccc}
0& 1\\ 1& 1\\
1& 0 \end{array} \right) = \left( \begin{array}{ccc}
2& 1 \\
1& 2 \end{array} \right)$$

$$\mathbf{AA^T} =
\left( \begin{array}{ccc}
0& 1\\ 1& 1\\
1& 0 \end{array} \right) \left( \begin{array}{ccc}
0& 1 &1\\
1&1& 0 \end{array} \right) = \left( \begin{array}{ccc}
1& 1 & 0\\ 1& 2 & 1\\
0& 1& 1 \end{array} \right)$$

　　　　进而求出$A^TA$的特征值和特征向量：$$\lambda_1= 3; v_1 = \left( \begin{array}{ccc}
1/\sqrt{2} \\
1/\sqrt{2} \end{array} \right); \lambda_2= 1; v_2 = \left( \begin{array}{ccc}
-1/\sqrt{2} \\
1/\sqrt{2} \end{array} \right) $$

　　　　接着求$AA^T$的特征值和特征向量：

$$\lambda_1= 3; u_1 = \left( \begin{array}{ccc}
1/\sqrt{6} \\ 2/\sqrt{6} \\
1/\sqrt{6} \end{array} \right); \lambda_2= 1; u_2 = \left( \begin{array}{ccc}
1/\sqrt{2} \\ 0 \\
-1/\sqrt{2} \end{array} \right); \lambda_3= 0; u_3 = \left( \begin{array}{ccc}
1/\sqrt{3} \\ -1/\sqrt{3} \\
1/\sqrt{3} \end{array} \right)$$　

　　　　利用$Av_i = \sigma_i u_i, i=1,2$求奇异值：

$$
\left( \begin{array}{ccc}
0& 1\\ 1& 1\\
1& 0 \end{array} \right) \left( \begin{array}{ccc}
1/\sqrt{2} \\
1/\sqrt{2} \end{array} \right) = \sigma_1 \left( \begin{array}{ccc}
1/\sqrt{6} \\ 2/\sqrt{6} \\
1/\sqrt{6} \end{array} \right) \Rightarrow \sigma_1=\sqrt{3}$$

$$
\left( \begin{array}{ccc}
0& 1\\ 1& 1\\
1& 0 \end{array} \right) \left( \begin{array}{ccc}
-1/\sqrt{2} \\
1/\sqrt{2} \end{array} \right) = \sigma_2 \left( \begin{array}{ccc}
1/\sqrt{2} \\ 0 \\
-1/\sqrt{2} \end{array} \right) \Rightarrow \sigma_2=1$$

固然，咱们也能够用$\sigma_i = \sqrt{\lambda_i}$直接求出奇异值为$\sqrt{3}$和1.

最终获得A的奇异值分解为：$$A=U\Sigma V^T = \left( \begin{array}{ccc}
1/\sqrt{6} & 1/\sqrt{2} & 1/\sqrt{3} \\ 2/\sqrt{6} & 0 & -1/\sqrt{3}\\
1/\sqrt{6} & -1/\sqrt{2} & 1/\sqrt{3} \end{array} \right) \left( \begin{array}{ccc}
\sqrt{3} & 0 \\ 0 & 1\\
0 & 0 \end{array} \right) \left( \begin{array}{ccc}
1/\sqrt{2} & 1/\sqrt{2} \\
-1/\sqrt{2} & 1/\sqrt{2} \end{array} \right)$$　　　　　　

4. SVD的一些性质　

　　　　上面几节咱们对SVD的定义和计算作了详细的描述，彷佛看不出咱们费这么大的力气作SVD有什么好处。那么SVD有什么重要的性质值得咱们注意呢？

　　　　对于奇异值,它跟咱们特征分解中的特征值相似，在奇异值矩阵中也是按照从大到小排列，并且奇异值的减小特别的快，在不少状况下，前10%甚至1%的奇异值的和就占了所有的奇异值之和的99%以上的比例。也就是说，咱们也能够用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是说：$$A_{m \times n} = U_{m \times m}\Sigma_{m \times n} V^T_{n \times n} \approx U_{m \times k}\Sigma_{k \times k} V^T_{k \times n}$$

　　　　其中k要比n小不少，也就是一个大的矩阵A能够用三个小的矩阵$U_{m \times k},\Sigma_{k \times k} ,V^T_{k \times n}$来表示。以下图所示，如今咱们的矩阵A只须要灰色的部分的三个小矩阵就能够近似描述了。

　　　　因为这个重要的性质，SVD能够用于PCA降维，来作数据压缩和去噪。也能够用于推荐算法，将用户和喜爱对应的矩阵作特征分解，进而获得隐含的用户需求来作推荐。同时也能够用于NLP中的算法，好比潜在语义索引（LSI）。下面咱们就对SVD用于PCA降维作一个介绍。

5. SVD用于PCA

　　　　在主成分分析（PCA）原理总结中，咱们讲到要用PCA降维，须要找到样本协方差矩阵$X^TX$的最大的d个特征向量，而后用这最大的d个特征向量张成的矩阵来作低维投影降维。能够看出，在这个过程当中须要先求出协方差矩阵$X^TX$，当样本数多样本特征数也多的时候，这个计算量是很大的。

　　　　注意到咱们的SVD也能够获得协方差矩阵$X^TX$最大的d个特征向量张成的矩阵，可是SVD有个好处，有一些SVD的实现算法能够不求先求出协方差矩阵$X^TX$，也能求出咱们的右奇异矩阵$V$。也就是说，咱们的PCA算法能够不用作特征分解，而是作SVD来完成。这个方法在样本量很大的时候颇有效。实际上，scikit-learn的PCA算法的背后真正的实现就是用的SVD，而不是咱们咱们认为的暴力特征分解。

　　　　另外一方面，注意到PCA仅仅使用了咱们SVD的右奇异矩阵，没有使用左奇异矩阵，那么左奇异矩阵有什么用呢？

　　　　假设咱们的样本是$m \times n$的矩阵X，若是咱们经过SVD找到了矩阵$XX^T$最大的d个特征向量张成的$m \times d$维矩阵U，则咱们若是进行以下处理：$$X'_{d \times n} = U_{d \times m}^TX_{m \times n}$$

　　　　能够获得一个$d \times n$的矩阵X‘,这个矩阵和咱们原来的$m \times n$维样本矩阵X相比，行数从m减到了d，可见对行数进行了压缩。也就是说，左奇异矩阵能够用于行数的压缩。相对的，右奇异矩阵能够用于列数即特征维度的压缩，也就是咱们的PCA降维。　　　　

6. SVD小结　

　　　　SVD做为一个很基本的算法，在不少机器学习算法中都有它的身影，特别是在如今的大数据时代，因为SVD能够实现并行化，所以更是大展身手。SVD的原理不难，只要有基本的线性代数知识就能够理解，实现也很简单所以值得仔细的研究。固然，SVD的缺点是分解出的矩阵解释性每每不强，有点黑盒子的味道，不过这不影响它的使用。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）