对数据进行降维有以下一系列的缘由:javascript
在如下3种降维技术中, PCA的应用目前最为普遍,所以本章主要关注PCA。css
通俗理解:就是找出一个最主要的特征,而后进行分析。
例如: 考察一我的的智力状况,就直接看数学成绩就行(存在:数学、语文、英语成绩)
通俗理解:将多个实测变量转换为少数几个综合指标。它反映一种降维的思想,经过降维将相关性高的变量聚在一块儿,从而减小须要分析的变量的数量,而减小问题分析的复杂性
例如: 考察一我的的总体状况,就直接组合3样成绩(隐变量),看平均成绩就行(存在:数学、语文、英语成绩)
通俗理解:ICA 认为观测信号是若干个独立信号的线性组合,ICA 要作的是一个解混过程。
例如:咱们去ktv唱歌,想辨别唱的是什么歌曲?ICA 是观察发现是原唱唱的一首歌【2个独立的声音(原唱/主唱)】。
https://cloud.tencent.com/developer/column/5337/tag-125html
PCA(Principal Component Analysis):也是一个梯度分析的应用,不只是机器学习的算法,也是统计学的经典算法html5
例以下面一个两个特征的一个训练集,咱们能够选择一个特征,扔掉一个特征java
1.1-1node
下图分别是扔掉了特征一和特征二的两种方案,很明显右边这种的效果会更好一些,由于访问二扔掉特征二之后,点之间的分布状况更接近与原图,可是这不是更好的python
1.1-2jquery
咱们但愿有一根直线,是斜着的,咱们但愿将全部的点都映射到这条直线上,那么这个时候咱们就成功的将二维降到了一维,与此同时,这些点更加趋近与原来的点的分布状况,换句话说,点和点之间的距离比不管是映射到x仍是映射到y周,他们之间的区分度都更加的大,也就更加容易区分linux
1.1-3android
那么如何找到这个让样本间间距最大的轴? 如何定义样本间间距? 事实上有一个指标能够之间定义样本间的距离,就是方差(Variance)(方差:描述样本总体之间的疏密的一个指标,方差越大,表明样本之间越稀疏,方差越小,表明样本之间越紧密)
1.2-1:方差
1-6
1.2-2
1.3-1
进行均值归0操做之后,就是下面的式子
1.3-2
注:|Xproject|的平均值也是一个向量
X(i)映射到w的距离实际上就是X(i)与w的点乘(蓝色的线),根据定义推导,其值实际上就是Xproject
1.3-3
此时咱们的目标函数就能够化简成
1.3-4
这是一个目标函数的最优化问题,使用梯度上升法解决。 固然咱们也能够之间使用数学原理推导出结果,这里咱们主要关注使用搜索的策略来求解主成分分析法,这样咱们对梯度上升发和梯度降低法也能够有一个更深入的认识
1.4-1
1.4-2
1.主成分分析法的两个轴都是特征,线性回归y轴是目标结果值 2.主成分分析法的点是垂直于方差轴直线的,线性回归的点事垂直于x轴的
2-1
1.注意上面式子里的每个(X1(i)·w1+X2(i)·w2+......Xn(i)·wn)都是一个X(i)和w的点乘,因此式子能够进一步化解, 2.化简事后能够进行向量化,即每个∑(X(i)·w1)·X1(i) 能够当作是(X·w)这个向量的转置(原本是个行向量,转置后是1行m列的列向量)与X这个矩阵(m行n列)作点乘等到的其中一项的相乘相加的结果 3.最后根据转置法则 ((AB)T=BTAT)转换成最后的结果
2-2
2-3
import numpy as np
import matplotlib.pyplot as plt
X = np.empty((100, 2))
X[:, 0] = np.random.uniform(0., 100., size=100)
# 0.75倍的X[:,0]加上3加上一个噪音
X[:, 1] = 0.75 * X[:, 0] + 3. + np.random.normal(0., 10., size=100)
plt.scatter(X[:, 0], X[:, 1])
plt.show()
def demean(X):
return X - np.mean(X, axis=0)
X_demean = demean(X)
plt.scatter(X_demean[:, 0], X_demean[:, 1])
plt.show()
2.梯度上升法
def f(w, X):
return np.sum((X.dot(w) ** 2)) / len(X)
def df_math(w, X):
return X.T.dot(X.dot(w)) * 2. / len(X)
def df_debug(w, X, epsilon=0.0001):
res = np.empty(len(w))
for i in range(len(w)):
w_1 = w.copy()
w_1[i] += epsilon
w_2 = w.copy()
w_2[i] -= epsilon
res[i] = (f(w_1, X) - f(w_2, X)) / (2 * epsilon)
return res
def direction(w):
"""计算单位向量"""
return w / np.linalg.norm(w)
def gradient_ascent(df, X, inital_w, eta, n_iters=1e4, epsilon=1e-8):
w = direction(inital_w)
cur_iter = 0
while cur_iter < n_iters:
gradient = df(w, X)
last_w = w
w = w + eta * gradient
# 注意1:每次求单位向量
w = direction(w)
if abs(f(w, X) - f(last_w, X)) < epsilon:
break
cur_iter = cur_iter + 1
return w
# 初始值不能为0,由于将0带入求导公式,会发现得0,没有任何方向
# 由于对于咱们的目标函数来讲,w=0自己就是一个最小值点
# 注意2:不能从0向量开始
initial_w = np.random.random(X.shape[1])
initial_w
eta = 0.001
# 注意3:不能使用StandardScaler标准化数据
# 由于咱们原本就是要使得方差最大,而标准化的目的是使得方差为1
# 使用debug模式
gradient_ascent(df_debug, X_demean, initial_w, eta)
# 使用math数学解
gradient_ascent(df_math, X_demean, initial_w, eta)
w = gradient_ascent(df_math, X_demean, initial_w, eta)
plt.scatter(X_demean[:, 0], X_demean[:, 1])
# 这个轴就是咱们求出的第一个主成分
plt.plot([0, w[0] * 30], [0, w[1] * 30], color='r')
plt.show()