PCA与LDA

 1、为何要降维:算法

  一、避免维数灾难,高维状况下容易产生过拟合spa

  二、特征之间若是存在明显的相关性(也叫共线性),此时就须要降维blog

  三、降维能够提取数据中的有效信息,去除噪音数据ip

  四、降维能够下降数据的复杂性,减小模型的训练时间ci

  五、能够方便对数据进行可视化处理,由于维数很高的话,没法可视化class

2、PCA降维思想可视化

  寻找某个轴线,使得样本映射到该轴线后,可以有最大的可区分度,衡量可区分度的指标就是求方差,如今的问题是如何求得这个轴线,使方差最大。方法

  用方差来定义样本间的间距,方差越大表示数据越稀松,方差越小则表示数据分布越密集,下图即方差公式。im

  

 

在求解最大方差前,为方便计算,可先对数据进行去均值处理。数据

  去均值后,求最大方差公式能够减小计算的复杂度。

  求知足最大方差的轴线可用梯度上升法求解。

 

  PCA和LDA都是降维算法,他们的主要区别是:

  PCA为无监督方法,主要是主成分分析方法,Principal Component Analysis, 简称PCA。

PCA能够降到任意维度。

  LDA是有监督方法,主要是线性判别分析法,Linear Discriminant Analysis ,简称LDA。

LDA最多只能降到数据类别 -1

相关文章
相关标签/搜索