降维
高维向量处理的时候会极大的消耗系统资源。
降维方法:
主成分分析、线性判别分析、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影。
PCA最大方差理论
咱们假设原始数据的特征向量组成的高维空间有不少冗余和噪声。
降维的意义:
去掉噪声数据。
寻找内部特征,提高特征表达能力,下降训练复杂度。
主成分分析(PrincipalComponentsAnalysis,PCA):
经典
线性、非监督、全局的降维算法。
主成分是什么?
使用二维空间直观理解:
有一条“主轴”使得原始样本数据分布的很“分散”。
原始数据在“主轴”这个方向上“方差更大”。
类别信号处理:
信号具备较大方差,
噪声具备较小方差。
信噪比越大意味着数据质量越高。
PCA的缺点:
PCA的优化目标
最大化投影方差,也就是让数据在主轴上投影的方差最大。
PCA优化过程
一、样本数据中心化处理
为了后面计算方差的方便
二、求样本协方差矩阵
假设一个投影方向的单位方向向量为w。
注意,最后求出的w由w1,w2...,wd组成,
另外w跟样本数据的维度同样,
w自己是样本数据投影在上面方差的向量。
单位方向向量方便求解。
那么原始样本向量xi在假设向量w上的投影公式:

那么投影后的方差能够表示为:

公式中wt和w中间的就是样本协方差矩阵,记作Σ。
三、对协方差矩阵进行特征值分解,将特征值从大到小排列。
转化为在特定条件下最大化问题,问题表示为:

引入拉格朗日乘子对w求导得出公式:

进而得出这个:

由这个公式得出x投影后的方差就是协方差矩阵的特征值。
解释上句话:Σ是样本的协方差矩阵,λ 是Σ的特征值。D(x)是投影后的方差,与λ相等。
因此推导这么多,咱们找到了要找的方差,那就是样本协方差矩阵的特征值。
最大投影方向也就找到了,
那就是样本协方差矩阵最大特征值所对应的特征向量(根据特征值与特征向量的性质)。
第二大也就是第二大特征值对应的特征向量。
四、取特征值前d大对应的特征向量ω1,ω2,...,ωd
至关于样本保留前d大投影方向的数据性质。
n维样本映射到d维公式:

降维后的信息占比:

大概能够理解为前d个特征值与全部特征值占比。
PCA最小平方偏差理论