特征值分解和奇异值分解

时间 2019-11-26

标签特征值分解奇异繁體版

原文原文链接

特征值和奇异值在大部分人的印象中，每每是停留在纯粹的数学计算中。并且线性代数或者矩阵论里面，也不多讲任何跟特征值与奇异值有关的应用背景。html

奇异值分解是一个有着很明显的物理意义的一种方法，它能够将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。就像是描述一我的同样，给别人描述说这我的长得浓眉大眼，方脸，络腮胡，并且带个黑框的眼镜，这样寥寥的几个特征，就让别人脑海里面就有一个较为清楚的认识，实际上，人脸上的特征是有着无数种的，之因此能这么描述，是由于人天生就有着很是好的抽取重要特征的能力，让机器学会抽取重要的特征，SVD是一个重要的方法。算法

在机器学习领域，有至关多的应用与奇异值均可以扯上关系，好比作feature reduction的PCA，作数据压缩（以图像压缩为表明）的算法，还有作搜索引擎语义层次检索的LSI（Latent Semantic Indexing） app

1、特征值与奇异值 框架

特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。二者有着很紧密的关系，接下来会谈到特征值分解和奇异值分解的目的都是同样，就是提取出一个矩阵最重要的特征。先谈特征值分解。机器学习

1.1 特征值 学习

若是说一个向量v是方阵A的特征向量，将必定能够表示成下面的形式子： Av = λv搜索引擎

这时候λ就被称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式：A = Q∑Q^-1云计算

其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来讲明一下。htm

首先，要明确的是，一个矩阵其实就是一个线性变换，由于一个矩阵乘以一个向量后获得的向量，其实就至关于将这个向量进行了线性变换。好比说下面的一个矩阵：blog

它其实对应的线性变换是下面的形式：

由于这个矩阵M乘以一个向量(x,y)的结果是：

上面的矩阵是对称的，因此这个变换是一个对x，y轴的方向一个拉伸变换（每个对角线上的元素将会对一个维度进行拉伸变换，当值>1时，是拉长，当值<1时时缩短），当矩阵不是对称的时候，假如说矩阵是下面的样子：

它所描述的变换是下面的样子：

这实际上是在平面上对一个轴进行的拉伸变换（如蓝色的箭头所示），在图中，蓝色的箭头是一个最主要的变化方向（变化方向可能有不止一个），若是咱们想要描述好一个变换，那咱们就描述好这个变换主要的变化方向就行了。反过头来看看以前特征值分解的式子，分解获得的Σ矩阵是一个对角阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。

考虑更通常的非对称矩阵

很遗憾，此时咱们再也找不到一组网格，使得矩阵做用在该网格上以后只有拉伸变换（找不到背后的数学缘由是对通常非对称矩阵没法保证在实数域上可对角化，不明白也不要在乎）。

咱们退而求其次，找一组网格，使得矩阵做用在该网格上以后容许有拉伸变换和旋转变换，但要保证变换后的网格依旧互相垂直，这是能够作到的，以下图所示。

简言之，当矩阵是高维的状况下，那么这个矩阵就是高维空间下的一个线性变换，这个变换也一样有不少的变换方向，咱们经过特征值分解获得的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。咱们利用这前N个变化方向，就能够近似这个矩阵（变换）。

也就是以前说的：提取这个矩阵最重要的特征。总结一下，特征值分解能够获得特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，能够将每个特征向量理解为一个线性的子空间，咱们能够利用这些线性的子空间干不少的事情。不过，特征值分解也有不少的局限，好比说变换的矩阵必须是方阵。

下面咱们就能够天然过渡到奇异值分解的引入。

1.2 奇异值

下面谈谈奇异值分解。特征值分解是一个提取矩阵特征很不错的方法，可是它只是对方阵而言的，在现实的世界中，咱们看到的大部分矩阵都不是方阵，

好比说有N个学生，每一个学生有M科成绩，这样造成的一个N * M的矩阵就不多是方阵，咱们怎样才能描述这样普通的矩阵呢的重要特征呢？

奇异值分解能够用来干这个事情，奇异值分解是一个能适用于任意的矩阵的一种分解的方法： A = UΣV^T

假设A是一个N * M的矩阵，那么获得的U是一个N * N的方阵（里面的向量是正交的，U里面的向量称为左奇异向量）

Σ是一个N * M的矩阵（除了对角线的元素都是0，对角线上的元素称为奇异值）

V’(V的转置)是一个N * N的矩阵，里面的向量也是正交的，V里面的向量称为右奇异向量），从图片来反映几个相乘的矩阵的大小可得下面的图片

那么奇异值和特征值是怎么对应起来的呢？首先，咱们将一个矩阵A的转置 * A，将会获得一个方阵，咱们用这个方阵求特征值能够获得：

这里获得的v，就是咱们上面的右奇异向量。此外咱们还能够获得：

这里的σ就是上面说的奇异值，u就是上面说的左奇异向量。奇异值σ跟特征值相似，在矩阵Σ中也是从大到小排列，并且σ的减小特别的快，在不少状况下，前10%甚至1%的奇异值的和就占了所有的奇异值之和的99%以上了。也就是说，咱们也能够用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：

r是一个远小于m、n的数，这样矩阵的乘法看起来像是下面的样子：

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，在这儿，r越接近于n，则相乘的结果越接近于A。而这三个矩阵的面积之和（在存储观点来讲，矩阵面积越小，存储量就越小）要远远小于原始的矩阵A，咱们若是想要压缩空间来表示原矩阵A，咱们存下这里的三个矩阵：U、Σ、V就行了。

说句大白话，称做「奇异值」可能没法顾名思义迅速理解其本质，那我们换个说法，称做「主特征值」，你可能就迅速了然了。

而奇异值分解的几何含义为：对于任何的一个矩阵，咱们要找到一组两两正交单位向量序列，使得矩阵做用在此向量序列上后获得新的向量序列保持两两正交。

继续拿1.1节的例子进一步阐述，奇异值的几何含义为：这组变换后的新的向量序列的长度。

奇异值的计算是一个难题，是一个O(N^3)的算法。在单机的状况下固然是没问题的，matlab在一秒钟内就能够算出1000 * 1000的矩阵的全部奇异值，可是当矩阵的规模增加的时候，计算的复杂度呈3次方增加，就须要并行计算参与了。Google的吴军老师在数学之美系列谈到SVD的时候，提及Google实现了SVD的并行化算法，说这是对人类的一个贡献，可是也没有给出具体的计算规模，也没有给出太多有价值的信息。

其实SVD仍是能够用并行的方式去实现的，在解大规模的矩阵的时候，通常使用迭代的方法，当矩阵的规模很大（好比说上亿）的时候，迭代的次数也可能会上亿次，若是使用Map-Reduce框架去解，则每次Map-Reduce完成的时候，都会涉及到写文件、读文件的操做。我的猜想Google云计算体系中除了Map-Reduce之外应该还有相似于MPI的计算模型，也就是节点之间是保持通讯，数据是常驻在内存中的，这种计算模型比Map-Reduce在解决迭代次数很是多的时候，要快了不少倍。

Lanczos迭代就是一种解对称方阵部分特征值的方法（以前谈到了，解A’* A获得的对称方阵的特征值就是解A的右奇异向量），是将一个对称的方程化为一个三对角矩阵再进行求解。按网上的一些文献来看，Google应该是用这种方法去作的奇异值分解的。请见Wikipedia上面的一些引用的论文，若是理解了那些论文，也“几乎”能够作出一个SVD了。

2、奇异值的直观应用

参考文献

1 https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

2 https://www.zhihu.com/question/22237507 3 We Recommend a Singular Value Decomposition（Feature Column from the AMS）

仅供我的学习使用转载请注明来源

编辑 ∑Pluto

来源：七月算法