PCA(Principal Component Analysis)是一种经常使用的数据分析方法。PCA经过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征份量,经常使用于高维数据的降维。网上关于PCA的文章有不少,可是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工做机制是什么。html
固然我并不打算把文章写成纯数学文章,而是但愿用直观和易懂的方式叙述PCA的数学原理,因此整个文章不会引入严格的数学推导。但愿读者在看完这篇文章后能更好的明白PCA的工做原理。算法
通常状况下,在数据挖掘和机器学习中,数据被表示为向量。例如某个淘宝店2012年整年的流量及交易状况能够当作一组记录的集合,其中每一天的数据是一条记录,格式以下:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)。机器学习
其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大可能是度量值,所以若是咱们忽略日期这个字段后,咱们获得一组记录,每条记录能够被表示为一个五维向量,其中一条看起来大约是这个样子:(500,240,25,13,2312.15)T。函数
注意这里我用了转置,由于习惯上使用列向量表示一条记录(后面会看到缘由),本文后面也会遵循这个准则。不过为了方便有时我会省略转置符号,但咱们说到向量默认都是指列向量。学习
咱们固然能够对这一组五维向量进行分析和挖掘,不过咱们知道,不少机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。固然,这里区区五维的数据,也许还无所谓,可是实际机器学习中处理成千上万甚至几十万维的状况也并不罕见,在这种状况下,机器学习的资源消耗是不可接受的,所以咱们必须对数据进行降维。优化
降维固然意味着信息的丢失,不过鉴于实际数据自己经常存在的相关性,咱们能够想办法在降维的同时将信息的损失尽可能下降。atom
举个例子,假如某学籍数据有两列M和F,其中M列的取值是如何此学生为男性取值1,为女性取值0;而F列是学生为女性取值1,男性取值0。此时若是咱们统计所有学籍数据,会发现对于任何一条记录来讲,当M为1时F一定为0,反之当M为0时F一定为1。在这种状况下,咱们将M或F去掉实际上没有任何信息的损失,由于只要保留一列就能够彻底还原另外一列。spa
固然上面是一个极端的状况,在现实中也许不会出现,不过相似的状况仍是很常见的。例如上面淘宝店铺的数据,从经验咱们能够知道,“浏览量”和“访客数”每每具备较强的相关关系,而“下单数”和“成交数”也具备较强的相关关系。这里咱们非正式的使用“相关关系”这个词,能够直观理解为“当某一天这个店铺的浏览量较高(或较低)时,咱们应该很大程度上认为这天的访客数也较高(或较低)”。后面的章节中咱们会给出相关性的严格数学定义。3d
这种状况代表,若是咱们删除浏览量或访客数其中一个指标,咱们应该期待并不会丢失太多信息。所以咱们能够删除一个,以下降机器学习算法的复杂度。orm
上面给出的是降维的朴素思想描述,能够有助于直观理解降维的动机和可行性,但并不具备操做指导意义。例如,咱们到底删除哪一列损失的信息才最小?亦或根本不是单纯删除几列,而是经过某些变换将原始数据变为更少的列但又使得丢失的信息最小?到底如何度量丢失信息的多少?如何根据原始数据决定具体的降维操做步骤?
要回答上面的问题,就要对降维问题进行数学化和形式化的讨论。而PCA是一种具备严格数学基础而且已被普遍采用的降维方法。下面我不会直接描述PCA,而是经过逐步分析问题,让咱们一块儿从新“发明”一遍PCA。
既然咱们面对的数据被抽象为一组向量,那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础。
下面先来看一个高中就学过的向量运算:内积。两个维数相同的向量的内积被定义为:
内积运算将两个向量映射为一个实数。其计算方式很是容易理解,可是其意义并不明显。下面咱们分析内积的几何意义。假设A和B是两个n维向量,咱们知道n维向量能够等价表示为n维空间中的一条从原点发射的有向线段,为了简单起见咱们假设A和B均为二维向量,则A=(x1,y1),B=(x2,y2)。则在二维平面上A和B能够用两条发自原点的有向线段表示,见下图:
如今咱们从A点向B所在直线引一条垂线。咱们知道垂线与B的交点叫作A在B上的投影,再设A与B的夹角是a,则投影的矢量长度为,其中
是向量A的模,也就是A线段的标量长度。
注意这里咱们专门区分了矢量长度和标量长度,标量长度老是大于等于0,值就是线段的长度;而矢量长度可能为负,其绝对值是线段长度,而符号取决于其方向与标准方向相同或相反。
到这里仍是看不出内积和这东西有什么关系,不过若是咱们将内积表示为另外一种咱们熟悉的形式:
如今事情彷佛是有点眉目了:A与B的内积等于A到B的投影长度乘以B的模。再进一步,若是咱们假设B的模为1,即让|B|=1,那么就变成了:
也就是说,设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度。这就是内积的一种几何解释,也是咱们获得的第一个重要结论。在后面的推导中,将反复使用这个结论。
下面咱们继续在二维空间内讨论向量。上文说过,一个二维向量能够对应二维笛卡尔直角坐标系中从原点出发的一个有向线段。例以下面这个向量:
在代数表示方面,咱们常常用线段终点的点坐标表示向量,例如上面的向量能够表示为(3,2),这是咱们再熟悉不过的向量表示。
不过咱们经常忽略,只有一个(3,2)自己是不可以精确表示一个向量的。咱们仔细看一下,这里的3实际表示的是向量在x轴上的投影值是3,在y轴上的投影值是2。也就是说咱们其实隐式引入了一个定义:以x轴和y轴上正方向长度为1的向量为标准。那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量,因此能够为负。
更正式的说,向量(x,y)实际上表示线性组合:
不难证实全部二维向量均可以表示为这样的线性组合。此处(1,0)和(0,1)叫作二维空间中的一组基。
因此,要准确描述向量,首先要肯定一组基,而后给出在基所在的各个直线上的投影值,就能够了。只不过咱们常常省略第一步,而默认以(1,0)和(0,1)为基。
之因此默认选择(1,0)和(0,1)为基,固然是比较方便,由于它们分别是x和y轴正方向上的单位向量,所以就使得二维平面上点坐标和向量一 一对应,很是方便。但实际上任何两个线性无关的二维向量均可以成为一组基,所谓线性无关在二维平面内能够直观认为是两个不在一条直线上的向量。
例如,(1,1)和(-1,1)也能够成为一组基。通常来讲,咱们但愿基的模是1,由于从内积的意义能够看到,若是基的模是1,那么就能够方便的用向量点乘基而直接得到其在新基上的坐标了!实际上,对应任何一个向量咱们总能够找到其同方向上模为1的向量,只要让两个份量分别除以模就行了。例如,上面的基能够变为和
。
如今,咱们想得到(3,2)在新基上的坐标,即在两个方向上的投影矢量值,那么根据内积的几何意义,只要分别计算(3,2)和两个基的内积,不可贵到新的坐标为。下图给出了新的基以及(3,2)在新基上坐标值的示意图:
另外这里要注意的是,咱们列举的例子中基是正交的(即内积为0,或直观说相互垂直),但能够成为一组基的惟一要求就是线性无关,非正交的基也是能够的。不过由于正交基有较好的性质,因此通常使用的基都是正交的。
下面咱们找一种简便的方式来表示基变换。仍是拿上面的例子,想一下,将(3,2)变换为新基上的坐标,就是用(3,2)与第一个基作内积运算,做为第一个新的坐标份量,而后用(3,2)与第二个基作内积运算,做为第二个新坐标的份量。实际上,咱们能够用矩阵相乘的形式简洁的表示这个变换:
太漂亮了!其中矩阵的两行分别为两个基,乘以原向量,其结果恰好为新基的坐标。能够稍微推广一下,若是咱们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,而后用“基矩阵”乘以这个矩阵,就获得了全部这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则能够这样表示:
因而一组向量的基变换被干净的表示为矩阵的相乘。
通常的,若是咱们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A,而后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中第m列变换后的结果。
数学表示为:
其中pi是一个行向量,表示第i个基,aj是一个列向量,表示第j个原始数据记录。
特别要注意的是,这里R能够小于N,而R决定了变换后数据的维数。也就是说,咱们能够将一N维数据变换到更低维度的空间中去,变换后的维度取决于基的数量。所以这种矩阵相乘的表示也能够表示降维变换。
最后,上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说,一个矩阵能够表示一种线性变换。不少同窗在学线性代数时对矩阵相乘的方法感到奇怪,可是若是明白了矩阵相乘的物理意义,其合理性就一目了然了。
上面咱们讨论了选择不一样的基能够对一样一组数据给出不一样的表示,并且若是基的数量少于向量自己的维数,则能够达到降维的效果。可是咱们尚未回答一个最最关键的问题:如何选择基才是最优的。或者说,若是咱们有一组N维向量,如今要将其降到K维(K小于N),那么咱们应该如何选择K个基才能最大程度保留原有的信息?
要彻底数学化这个问题很是繁杂,这里咱们用一种非形式化的直观方法来看这个问题。
为了不过于抽象的讨论,咱们仍以一个具体的例子展开。假设咱们的数据由五条记录组成,将它们表示成矩阵形式:
其中每一列为一条数据记录,而一行为一个字段。为了后续处理方便,咱们首先将每一个字段内全部值都减去字段均值,其结果是将每一个字段都变为均值为0(这样作的道理和好处后面会看到)。
咱们看上面的数据,第一个字段均值为2,第二个字段均值为3,因此变换后:
咱们能够看下五条数据在平面直角坐标系内的样子:
如今问题来了:若是咱们必须使用一维来表示这些数据,又但愿尽可能保留原始的信息,你要如何选择?
经过上一节对基变换的讨论咱们知道,这个问题其实是要在二维平面中选择一个方向,将全部数据都投影到这个方向所在直线上,用投影值表示原始记录。这是一个实际的二维降到一维的问题。
那么如何选择这个方向(或者说基)才能尽可能保留最多的原始信息呢?一种直观的见解是:但愿投影后的投影值尽量分散。
以上图为例,能够看出若是向x轴投影,那么最左边的两个点会重叠在一块儿,中间的两个点也会重叠在一块儿,因而自己四个各不相同的二维点投影后只剩下两个不一样的值了,这是一种严重的信息丢失,同理,若是向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。因此看来x和y轴都不是最好的投影选择。咱们直观目测,若是向经过第一象限和第三象限的斜线投影,则五个点在投影后仍是能够区分的。
下面,咱们用数学方法表述这个问题。
上文说到,咱们但愿投影后投影值尽量分散,这种分散程度,能够用数学上的方差来表述。此处,一个字段的方差能够看作是每一个元素与字段均值的差的平方和的均值,即:
因为上面咱们已经将每一个字段的均值都化为0了,所以方差能够直接用每一个元素的平方和除以元素个数表示:
因而上面的问题被形式化表述为:寻找一个一维基,使得全部数据变换为这个基上的坐标表示后,方差值最大。
对于上面二维降成一维的问题来讲,找到那个使得方差最大的方向就能够了。不过对于更高维,还有一个问题须要解决。考虑三维降到二维问题。与以前相同,首先咱们但愿找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而咱们选择第二个投影方向。
若是咱们仍是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一块儿”,显然这样的维度是没有用的,所以,应该有其余约束条件。从直观上说,让两个字段尽量表示更多的原始信息,咱们是不但愿它们之间存在(线性)相关性的,由于相关性意味着两个字段不是彻底独立,必然存在重复表示的信息。
数学上能够用两个字段的协方差表示其相关性,因为已经让每一个字段均值为0,则:
能够看到,在字段均值为0的状况下,两个字段的协方差简洁的表示为其内积除以元素数m。
当协方差为0时,表示两个字段彻底独立。为了让协方差为0,咱们选择第二个基时只能在与第一个基正交的方向上选择。所以最终选择的两个方向必定是正交的。
至此,咱们获得了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽量大(在正交的约束下,取最大的K个方差)。
上面咱们导出了优化目标,可是这个目标彷佛不能直接做为操做指南(或者说算法),由于它只说要什么,但根本没有说怎么作。因此咱们要继续在数学上研究计算方案。
咱们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。所以咱们但愿能将二者统一表示,仔细观察发现,二者都可以表示为内积的形式,而内积又与矩阵相乘密切相关。因而咱们来了灵感:
假设咱们只有a和b两个字段,那么咱们将它们按行组成矩阵X:
而后咱们用X乘以X的转置,并乘上系数1/m:
奇迹出现了!这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。二者被统一到了一个矩阵的。
根据矩阵相乘的运算法则,这个结论很容易被推广到通常状况:
设咱们有m个n维数据记录,将其按列排成n乘m的矩阵X,设,则C是一个对称矩阵,其对角线分别个各个字段的方差,而第i行j列和j行i列元素相同,表示i和j两个字段的协方差。
根据上述推导,咱们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,而且在对角线上将元素按大小从上到下排列,这样咱们就达到了优化目的。这样说可能还不是很明晰,咱们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系:
设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P作基变换后的数据。设Y的协方差矩阵为D,咱们推导一下D与C的关系:
如今事情很明白了!咱们要找的P不是别的,而是能让原始协方差矩阵对角化的P。换句话说,优化目标变成了寻找一个矩阵P,知足PCPT是一个对角矩阵,而且对角元素按从大到小依次排列,那么P的前K行就是要寻找的基,用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并知足上述优化条件。
至此,咱们离“发明”PCA还有仅一步之遥!
如今全部焦点都聚焦在了协方差矩阵对角化问题上,有时,咱们真应该感谢数学家的先行,由于矩阵对角化在线性代数领域已经属于被玩烂了的东西,因此这在数学上根本不是问题。
由上文知道,协方差矩阵C是一个是对称矩阵,在线性代数上,实对称矩阵有一系列很是好的性质:
1)实对称矩阵不一样特征值对应的特征向量必然正交。
2)设特征向量λ重数为r,则必然存在r个线性无关的特征向量对应于λλ,所以能够将这r个特征向量单位正交化。
由上面两条可知,一个n行n列的实对称矩阵必定能够找到n个单位正交特征向量,设这n个特征向量为e1,e2,⋯,en,咱们将其按列组成矩阵:
则对协方差矩阵C有以下结论:
其中Λ为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。
以上结论再也不给出严格的数学证实,对证实感兴趣的朋友能够参考线性代数书籍关于“实对称矩阵对角化”的内容。
到这里,咱们发现咱们已经找到了须要的矩阵P:
P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。若是设P按照Λ中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就获得了咱们须要的降维后的数据矩阵Y。
至此咱们完成了整个PCA的数学原理讨论。在下面的一节,咱们将给出PCA的一个实例。
为了巩固上面的理论,咱们在这一节给出一个具体的PCA实例。
总结一下PCA的算法步骤:
设有m条n维数据。
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(表明一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵C=1/mXXT
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)Y=PX即为降维到k维后的数据
这里以上文提到的
为例,咱们用PCA方法将这组二维数据其降到一维。
由于这个矩阵的每行已是零均值,这里咱们直接求协方差矩阵:
而后求其特征值和特征向量,具体求解方法再也不详述,能够参考相关资料。求解后特征值为:
其对应的特征向量分别是:
其中对应的特征向量分别是一个通解,c1和c2可取任意实数。那么标准化后的特征向量为:
所以咱们的矩阵P是:
能够验证协方差矩阵C的对角化:
最后咱们用P的第一行乘以数据矩阵,就获得了降维后的表示:
降维投影结果以下图:
根据上面对PCA的数学原理的解释,咱们能够了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向做为主要特征,而且在各个正交方向上将数据“离相关”,也就是让它们在不一样正交方向上没有相关性。
所以,PCA也存在一些限制,例如它能够很好的解除线性相关,可是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,能够考虑Kernel PCA,经过Kernel函数将非线性相关转为线性相关,关于这点就不展开讨论了。另外,PCA假设数据各主特征是分布在正交方向上,若是在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。
最后须要说明的是,PCA是一种无参数技术,也就是说面对一样的数据,若是不考虑清洗,谁来作结果都同样,没有主观参数的介入,因此PCA便于通用实现,可是自己没法个性化的优化。
但愿这篇文章能帮助朋友们了解PCA的数学理论基础和实现原理,借此了解PCA的适用场景和限制,从而更好的使用这个算法。
文章转载自:http://blog.codinglabs.org/articles/pca-tutorial.html