1、为何要降维:算法
一、避免维数灾难,高维状况下容易产生过拟合spa
二、特征之间若是存在明显的相关性(也叫共线性),此时就须要降维blog
三、降维能够提取数据中的有效信息,去除噪音数据ip
四、降维能够下降数据的复杂性,减小模型的训练时间ci
五、能够方便对数据进行可视化处理,由于维数很高的话,没法可视化class
2、PCA降维思想可视化
寻找某个轴线,使得样本映射到该轴线后,可以有最大的可区分度,衡量可区分度的指标就是求方差,如今的问题是如何求得这个轴线,使方差最大。方法
用方差来定义样本间的间距,方差越大表示数据越稀松,方差越小则表示数据分布越密集,下图即方差公式。im
在求解最大方差前,为方便计算,可先对数据进行去均值处理。数据
去均值后,求最大方差公式能够减小计算的复杂度。
求知足最大方差的轴线可用梯度上升法求解。
PCA和LDA都是降维算法,他们的主要区别是:
PCA为无监督方法,主要是主成分分析方法,Principal Component Analysis, 简称PCA。
PCA能够降到任意维度。
LDA是有监督方法,主要是线性判别分析法,Linear Discriminant Analysis ,简称LDA。
LDA最多只能降到数据类别 -1