PCA与LDA

时间 2019-12-14

标签 pca lda 繁體版

原文原文链接

　1、为何要降维：算法

　　一、避免维数灾难，高维状况下容易产生过拟合spa

　　二、特征之间若是存在明显的相关性（也叫共线性），此时就须要降维blog

　　三、降维能够提取数据中的有效信息，去除噪音数据ip

　　四、降维能够下降数据的复杂性，减小模型的训练时间ci

　　五、能够方便对数据进行可视化处理，由于维数很高的话，没法可视化class

2、PCA降维思想可视化

　　寻找某个轴线，使得样本映射到该轴线后，可以有最大的可区分度，衡量可区分度的指标就是求方差，如今的问题是如何求得这个轴线，使方差最大。方法

　　用方差来定义样本间的间距，方差越大表示数据越稀松，方差越小则表示数据分布越密集，下图即方差公式。im

在求解最大方差前，为方便计算，可先对数据进行去均值处理。数据

　　去均值后，求最大方差公式能够减小计算的复杂度。

　　求知足最大方差的轴线可用梯度上升法求解。

　　PCA和LDA都是降维算法，他们的主要区别是：

　　PCA为无监督方法，主要是主成分分析方法，Principal Component Analysis，简称PCA。

PCA能够降到任意维度。

　　LDA是有监督方法，主要是线性判别分析法，Linear Discriminant Analysis ，简称LDA。

LDA最多只能降到数据类别 -1