PCA数学推导及原理（转）

时间 2019-11-20

原文原文链接

原文： https://zhuanlan.zhihu.com/p/26951643

在多元统计分析中，主成分分析（Principal components analysis，PCA）是一种分析、简化数据集的技术。主成分分析常常用于减小数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是经过保留低阶主成分，忽略高阶主成分作到的。这样低阶成分每每可以保留住数据的最重要方面。

PCA在机器学习中常常被用到，是数据预处理的重要步骤。它主要基于如下考虑：html

高维特征中不少特征之间存在相关性，含有冗余信息
相比于低维数据，高维数据计算更复杂

PCA的数学原理

以下图，平面上有不少二维空间的特征点，若是想对这些特征点作特征降维（变为一维），应该怎么作呢？你们应该都知道须要进行投影，但还要考虑在哪一个方向上进行投影，例如图中须要投影到长箭头方向便可，但考虑为何不在短箭头上投影？算法

PCA本质上是一个有损的特征压缩过程，可是咱们指望损失的精度尽量地少，也就是但愿压缩的过程当中保留最多的原始信息。要达到这种目的，咱们但愿降维（投影）后的数据点尽量地分散。如图，相比于长箭头，若是在短箭头上进行投影，那么重叠的点会更多，也就意味着信息丢失的更多，于是选择长箭头方向。机器学习

基于这种思想，咱们但愿投影后的数据点尽量地分散。而这种分散程度在数学上能够利用方差来表示。设降维后的特征为 $A$ ，也就是但愿 $var(A)=\frac{1}{m}\sum_i^m(a_i-\mu_a)^2$ 尽量地大（ $a_i$ 为特征 $A$ 中的值， $\mu_a$ 为均值），而因为在PCA降维前，通常已经作了特征零均值化处理，为了方便，记 $var(A)=\frac{1}{m}\sum_i^ma_i^2$ 。函数

一样，为了减小特征的冗余信息，咱们但愿降维后的各特征之间互不相关。而不相关性能够用协方差来衡量。设降维后的两个特征为 $A$ 、 $B$ ，则但愿 $Cov(A,B)=\frac{1}{m}\sum_i^ma_ib_i$ 为0。学习

现假设咱们的数据为优化

$\begin{align} X = \left[ \begin{matrix} a_1&b_1\\ a_2&b_2\\ \vdots&\vdots\\ a_m&b_m \end{matrix} \right] \end{align}$

构造出协方差矩阵，并乘以系数 $\frac{1}{m}$ ，则编码

$\begin{align} \frac{1}{m}X^TX = \left[ \begin{matrix} \frac{1}{m}\sum_i^ma_i^2&\frac{1}{m}\sum_i^ma_ib_i\\ \frac{1}{m}\sum_i^ma_ib_i&\frac{1}{m}\sum_i^mb_i^2\\ \end{matrix} \right] \end{align}$

能够看出 $\frac{1}{m}X^TX$ 的对角线元素就是各特征的方差，其余各位置的元素就是各特征之间的协方差。于是只须要降维后的数据协方差矩阵知足对角矩阵的条件便可。component

设 $Y$ 为原始数据 $X$ 作完PCA降维后的数据，知足 $Y=XP$ （矩阵乘法至关于映射，若 $P$ 为的列向量为基向量，那么就至关于映射到新的坐标系）， $Y_c$ ， $X_c$ 分别为对应的协方差矩阵，那么orm

$\begin{align} &Y_c=\frac{1}{m}Y^TY\\ &=\frac{1}{m}(XP)^TXP\\ &=\frac{1}{m}P^TX^TXP\\ &=P^T(\frac{1}{m}X^TX)P\\ &=P^TX_cP \end{align}$

于是，咱们只须要计算出 $P$ ，使 $Y_c=P^TX_cP$ 知足对角矩阵的条件便可。而 $X_c$ 为实对称矩阵，咱们只须要对它作矩阵对角化便可。htm

PCA的原理基本就是这样，仍是挺简单的。

PCA的推导证实

PCA的构建：PCA须要构建一个编码器 $f$ ，由输入 $x\in R^n$ 获得一个最优编码 $c\in R^l$ （若 $l<n$ ，则作了降维编码）；同时有一个解码器 $g$ ，解码后的输出 $g(c)$ 尽量地与 $x$ 相近。

PCA由咱们所选择的解码器决定，在数学上，咱们使用矩阵将 $c$ 映射回 $R^n$ ，即 $g(c)=Dc$ ，其中 $D\in R^{n\times l}$ 定义解码的矩阵。

为了限制PCA的惟一性，咱们限制 $D$ 中全部列向量彼此正交且均有单位范数（不然 $D$ 、 $c$ 同比例增长、减小会产生无数个解）。

在数学上，为了知足PCA构建中的条件，咱们利用 $L_2$ 范数来衡量 $g(c)$ 与 $x$ 的相近程度。即 $c^*=argmin_c||x-g(c)||_2$ ，也就是 $c^*=argmin_c||x-g(c)||_2^2$

该最小化函数能够简化为

$\begin{align} &(x-g(c))^T(x-g(c))\\ &=x^Tx-x^Tg(c)-g(c)^Tx+g(c)^Tg(c)\\ &=x^Tx-2x^Tg(c)+g(c)^Tg(c) \end{align}$

于是，优化目标变为 $c^*=argmin_c-2x^Tg(c)+g(c)^Tg(c)$ ，再带入 $g(c)=Dc$ ，

$\begin{align} &c^*=argmin_c-2x^TDc+c^TD^TDc\\ &=argmin_c-2x^TDc+c^Tc(D^TD=I_l) \end{align}$

再求偏导

$\begin{align} &\nabla_c(-2x^TDc+c^Tc)=0\\ &-2D^Tx+2c=0\\ &c=D^Tx \end{align}$

因而咱们能够获得编码函数 $f(x)=D^Tx$ ，PCA的重构操做也就能够定义为 $r(x)=g(c)=g(f(x))=DD^Tx$ 。问题接着就转化成如何求编码矩阵 $D$ 。因为PCA算法是在整个数据矩阵上进行编码，于是也要用 $D$ 对全部数据进行解码，因此须要最小化全部维上的偏差矩阵的Frobenius范数：

$D^*=argmin_D\sqrt{\sum_{i,j}(x^{(i)}-r(x^{(i)}))_j^2}~~subject~to~D^TD=I_l$

咱们考虑 $l=1$ 的状况，则 $D$ 是一个单一贯量 $d$ ，则上式能够转化为

$d^*=argmin_d\sum_{i}||(x^{(i)}-dd^Tx^{(i)}||_2^2~~subject~to~||d||_2=1$

而 $d^Tx^{(i)}$ 为标量，转置与自身相等，上式一般写做

$d^*=argmin_d\sum_{i}||(x^{(i)}-x^{(i)T}dd||_2^2~~subject~to~||d||_2=1$

再将每个输入点叠加起来，咱们获得

$d^*=argmin_d\sum_{i}||X-X^{T}dd||_F^2~~subject~to~d^Td=1$

Frobenius范数简化成（考虑约束条件 $d^Td=1$ ）

$\begin{align} &argmin_d\sum_{i}||X-X^{T}dd||_F^2\\ &=argmin_dTr((X-X^{T}dd)^T(X-X^{T}dd))\\ &=argmin_dTr(X^TX-X^TXd^T-dd^TX^TX+dd^TX^TXdd^T)\\ &=argmin_d-Tr(X^TXd^T)+Tr(dd^TX^TX)+Tr(dd^TX^TXdd^T)\\ &=argmin_d-2Tr(X^TXdd^T)+Tr(dd^TX^TXdd^T)\\ &=argmin_d-2Tr(X^TXdd^T)+Tr(X^TXdd^Tdd^T)\\ &=argmin_d-Tr(X^TXdd^T)\\ &=argmax_dTr(X^TXdd^T)\\ &=argmax_dTr(d^TX^TXd)~~subject~to~d^Td=1 \end{align}$

最后的优化目标能够利用 $\frac{\partial Tr(ABA^TC)}{\partial A}=CAB+C^TAB^T$ 以及拉格朗日乘数法来求解，可得最优的 $d$ 是 $X^TX$ 的最大特征值对应的特征向量。

上面的推导特定于 $l=1$ 的状况，仅有一个主成分。通常来讲，矩阵 $D$ 由 $X^TX$ 的前 $l$ 个最大的特征值对应的特征向量组成（利用概括法，将 $D_{l+1}$ 表示为 $D_l$ 的函数便可，须要两个辅助矩阵：单位对角矩阵 $R^{(l+1)\times l}$ 以及 $(0,0\cdots,0,1)^T\in R^{l+1}$ ，省去证实过程）。

参考

主成分分析
CodingLabs - PCA的数学原理
《Deep Learning》 Ian Goodfellow et al.