PCA全称Principal Component Analysis,即主成分分析,是一种经常使用的数据降维方法。它能够经过线性变换将原始数据变换为一组各维度线性无关的表示,以此来提取数据的主要线性份量。javascript
z=wTx
其中,z为低维矩阵,x为高维矩阵,w为二者之间的映射关系。假如咱们有二维数据(原始数据有两个特征轴——特征1和特征2)以下图所示,样本点分布为斜45°的蓝色椭圆区域。css
PCA算法认为斜45°为主要线性份量,与之正交的虚线是次要线性份量(应当舍去以达到降维的目的)。html
划重点:html5
相应的,PCA解释方差并对离群点很敏感:少许原远离中心的点对方差有很大的影响,从而也对特征向量有很大的影响。java
一个矩阵与一个列向量A相乘,等到一个新的列向量B,则称该矩阵为列向量A到列向量B的线性变换。node
咱们但愿投影后投影值尽量分散,而这种分散程度,能够用数学上的方差来表述。python
即寻找一个一维基,使得全部数据变换为这个基上的坐标表示后,方差值最大。jquery
解释:方差越大,说明数据越分散。一般认为,数据的某个特征维度上数据越分散,该特征越重要。linux
对于更高维度,还有一个问题须要解决,考虑三维降到二维问题。与以前相同,首先咱们但愿找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而咱们选择第二个投影方向。若是咱们仍是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一块儿”,显然这样的维度是没有用的,所以,应该有其余约束条件——就是正交android
解释:从直观上说,让两个字段尽量表示更多的原始信息,咱们是不但愿它们之间存在(线性)相关性的,由于相关性意味着两个字段不是彻底独立,必然存在重复表示的信息。
字段在本文中指,降维后的样本的特征轴
数学上能够用两个字段的协方差表示其相关性:
当协方差为0时,表示两个字段线性不相关。
总结一下,PCA的优化目标是:
将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽量大。
因此如今的重点是方差和协方差
在统计学上,协方差用来刻画两个随机变量之间的相关性,反映的是变量之间的二阶统计特性。考虑两个随机变量Xi 和 Xj ,它们的协方差定义为:
协方差矩阵:
假设有m个变量,特征维度为2,a1表示变量1的a特征。那么构成的数据集矩阵为:
再假设它们的均值都是0,对于有两个均值为0的m维向量组成的向量组,
能够发现对角线上的元素是两个字段的方差,其余元素是两个字段的协方差,二者都被统一到了一个矩阵——协方差矩阵中。
回顾一下前面所说的PCA算法的目标:方差max,协方差min!!
要达到PCA降维目的,等价于将协方差矩阵对角化:即除对角线外的其余元素化为0,而且在对角线上将元素按大小从上到下排列,这样咱们就达到了优化目的。
设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P作基变换后的数据。设Y的协方差矩阵为D,咱们推导一下D与C的关系:
解释:想让原始数据集X =>pca成数据集Y,使得Y的协方差矩阵是个对角矩阵。
有上述推导可得,如有矩阵P能使X的协方差矩阵对角化,则P就是咱们要找的PCA变换。
优化目标变成了寻找一个矩阵P,知足是一个对角矩阵,而且对角元素按从大到小依次排列,那么P的前K行就是要寻找的基,用P的前K行组成的矩阵乘以X就使得X从N维降到了K维,并知足上述优化条件。
首先,原始数据矩阵X的协方差矩阵C是一个实对称矩阵,它有特殊的数学性质:
P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。若是设P按照中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就获得了咱们须要的降维后的数据矩阵Y。
小例子:
https://www.jianshu.com/u/1ebb0a071a9f
import numpy as np
import pandas as pd
df = pd.read_csv('D:\\mlInAction\\iris.data')
df.head()
df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid', 'class']
df.head()
# split data table into data X and class labels y
X = df.iloc[:, 0:4].values
y = df.iloc[:, 4].values
from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X)
print(X_std)
mean_vec = np.mean(X_std, axis=0)
cov_mat = (X_std - mean_vec).T.dot((X_std - mean_vec)) / (X_std.shape[0] - 1)
# 协方差和方差都是除以n-1
print('Covariance matrix \n%s' % cov_mat)
print('NumPy covariance matrix: \n%s' % np.cov(X_std.T))
# 重点:协方差矩阵计算的是不一样维度之间的协方差,而不是不一样样本之间。
# 拿到一个样本矩阵,首先要明确的就是行表明什么,列表明什么。
cov_mat = np.cov(X_std.T)
eig_vals, eig_vecs = np.linalg.eig(cov_mat) # 利用numpy求特征值和特征向量
print('Eigenvectors \n%s' % eig_vecs)
print('\nEigenvalues \n%s' % eig_vals)
# Make a list of (eigenvalue, eigenvector) tuples
eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:, i]) for i in range(len(eig_vals))]
print(eig_pairs)
print('----------')
# Sort the (eigenvalue, eigenvector) tuples from high to low
eig_pairs.sort(key=lambda x: x[0], reverse=True)
# Visually confirm that the list is correctly sorted by decreasing eigenvalues
print('Eigenvalues in descending order:')
for i in eig_pairs:
print(i[0])
tot = sum(eig_vals)
var_exp = [(i / tot) * 100 for i in sorted(eig_vals, reverse=True)]
print(var_exp)
cum_var_exp = np.cumsum(var_exp)
cum_var_exp
a = np.array([1, 2, 3, 4])
print(a)
print('-----------')
print(np.cumsum(a))
matrix_w = np.hstack((eig_pairs[0][1].reshape(4, 1),
eig_pairs[1][1].reshape(4, 1)))
print('Matrix W:\n', matrix_w)
Y = X_std.dot(matrix_w)
Y
from matplotlib import pyplot as plt
plt.figure(figsize=(6, 4))
for lab, col in zip(('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'),
('blue', 'red', 'green')):
plt.scatter(X[y == lab, 0],
X[y == lab, 1],
label=lab,
c=col)
plt.xlabel('sepal_len')
plt.ylabel('sepal_wid')
plt.legend(loc='best')
plt.tight_layout()
plt.show()
plt.figure(figsize=(6, 4))
for lab, col in zip(('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'),
('blue', 'red', 'green')):
plt.scatter(Y[y == lab, 0],
Y[y == lab, 1],
label=lab,
c=col)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.legend(loc='lower center')
plt.tight_layout()
plt.show()
进一步讨论 根据上面对PCA的数学原理的解释,咱们能够了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向做为主要特征,而且在各个正交方向上将数据“离相关”,也就是让它们在不一样正交方向上没有相关性。
所以,PCA也存在一些限制,例如它能够很好的解除线性相关,可是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,能够考虑Kernel PCA,经过Kernel函数将非线性相关转为线性相关,关于这点就不展开讨论了。另外,PCA假设数据各主特征是分布在正交方向上,若是在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。
最后须要说明的是,PCA是一种无参数技术,也就是说面对一样的数据,若是不考虑清洗,谁来作结果都同样,没有主观参数的介入,因此PCA便于通用实现,可是自己没法个性化的优化。