主成分分析(PCA)原理详解

PCA的原理就是将原来的样本数据投影到一个新的空间中,至关于咱们在矩阵分析里面学习的将一组矩阵映射到另外的坐标系下。经过一个转换坐标,也能够理解成把一组坐标转换到另一组坐标系下,可是在新的坐标系下,表示原来的本来不须要那么多的变量,只须要原来样本的最大的一个线性无关组的特征值对应的空间的坐标便可。学习

好比,原来的样本是30*1000000的维数,就是说咱们有30个样本,每一个样本有1000000个特征点,这个特征点太多了,咱们须要对这些样本的特征点进行降维。那么在降维的时候会计算一个原来样本矩阵的协方差矩阵,这里就是1000000*1000000,固然,这个矩阵太大了,计算的时候有其余的方式进行处理,这里只是讲解基本的原理,而后经过这个1000000*1000000的协方差矩阵计算它的特征值和特征向量,最后得到具备最大特征值的特征向量构成转换矩阵。好比咱们的前29个特征值已经可以占到全部特征值的99%以上,那么咱们只须要提取前29个特征值对应的特征向量便可。这样就构成了一个1000000*29的转换矩阵,而后用原来的样本乘以这个转换矩阵,就能够获得原来的样本数据在新的特征空间的对应的坐标。30*1000000 * 1000000*29 = 30 *29, 这样原来的训练样本每一个样本的特征值的个数就降到了29个。blog

参考文章连接:http://blog.jobbole.com/109015/变量

 

通常来讲,PCA降维后的每一个样本的特征的维数,不会超过训练样本的个数,由于超出的特征是没有意义的。原理

相关文章
相关标签/搜索