降维,就是将数据由原来的n个特征(feature)缩减为k个特征(可能从n个中直接选取k个,也能根据这n个从新组合成k个)。可起到数据压缩的做用(于是也就存在数据丢失)。算法
PCA,即主成分分析法,属于降维的一种方法。其主要思想就是 :根据原始的n个特征(也就是n维),从新组合出k个特征,且这k个特征能最大量度地涵盖原始的数据信息(虽然会致使信息丢失)。函数
有一个结论:当某一维的方差越大时,其所包含的信息量也越大,代表其越重要;反之则反。因此,PCA的主要工做就是:重构出k个特征,使其所包含的信息量最大。优化
举一个简单的例子,上面的图片中这组数据具备两个特征分别为特征一和特征二,咱们若是只考虑其中的一个特征的话,那么就须要将这组数据投影到X轴(特征1)或Y轴(特征2)上。blog
比较两种投影结果,咱们认为第一种(投影至X轴)的投影效果更好,由于点与点之间的距离比较稀疏,能更好的区分各个样本,反观投影至Y轴上的结果,点与点之间比较紧凑,样本之间不容易区分。图片
但是这样的投影方式是否是最好的呢?基础
咱们继续思考是否存在这样一条直线,当咱们把全部的点投影到这条直线上时,全部点之间的距离最大呢?变量
所以咱们的目标转换为如何寻找到这样一条让样本间距离最大的轴,可是在这以前,咱们应该先知道如何来定义样本间的距离?事实上,在统计学中,方差正好知足咱们的需求,它表示样本间总体疏密程度。重构
对于如何找到一个轴,使得样本空间的全部点映射到这个轴的方差最大。搜索
第一步:样本归0方法
将样本进行均值归0(demean),即全部样本减去样本的均值。样本的分布没有改变,只是将坐标轴进行了移动。
转化为了
由于如今的均值已经为零,所以就有了以下公式
主成分分析方法(PCA),是数据降维算法。将关系紧密的变量变成尽量少的新变量,使这些新变量是两两不相关的,即用较少的综合指标分别表明存在于各个变量中的各种信息,达到数据降维的效果。
所用到的方法就是“映射”:将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上从新构造出来的k维特征。咱们要选择的就是让映射后样本间距最大的轴。
其过程分为两步:
样本归0
找到样本点映射后方差最大的单位向量 最后就能转为求目标函数的最优化问题:
求w,使得 最大。
此时,咱们就能够用搜索策略,使用梯度上升法来解决