13机器学习实战之PCA（1）

时间 2019-11-17

标签机器学习实战 pca 繁體版

原文原文链接

降维技术

对数据进行降维有以下一系列的缘由：javascript

使得数据集更容易使用
下降不少算法的计算开销
去除噪音
使得结果易懂

在如下3种降维技术中， PCA的应用目前最为普遍，所以本章主要关注PCA。css

1. 主成分分析(Principal Component Analysis, PCA)
- 通俗理解：就是找出一个最主要的特征，而后进行分析。
- 在PCA中，数据集从原始坐标系转换为新的坐标系。新的坐标系选择由数据自己决定。第一个新轴选择数据中方差最大的方向。第二轴与第一轴正交，且具备最大方差的方向。对于原始数据中的全部特性，都要重复这个过程。咱们会发现大多数方差都包含在前几个坐标轴中，所以，咱们能够忽略其他的坐标轴，并减小数据的维数。
- 例如：考察一我的的智力状况，就直接看数学成绩就行(存在：数学、语文、英语成绩)
1. 因子分析(Factor Analysis)
- 通俗理解：将多个实测变量转换为少数几个综合指标。它反映一种降维的思想，经过降维将相关性高的变量聚在一块儿,从而减小须要分析的变量的数量,而减小问题分析的复杂性
- 例如：考察一我的的总体状况，就直接组合3样成绩(隐变量)，看平均成绩就行(存在：数学、语文、英语成绩)
- 应用的领域：社会科学、金融和其余领域
- 在因子分析中，咱们
  - 假设观察数据的成分中有一些观察不到的隐变量(latent variable)。
  - 假设观察数据是这些隐变量和某些噪音的线性组合。
  - 那么隐变量的数据可能比观察数据的数目少，也就说经过找到隐变量就能够实现数据的降维。
1. 独立成分分析(Independ Component Analysis, ICA)

通俗理解：ICA 认为观测信号是若干个独立信号的线性组合，ICA 要作的是一个解混过程。
例如：咱们去ktv唱歌，想辨别唱的是什么歌曲？ICA 是观察发现是原唱唱的一首歌【2个独立的声音（原唱／主唱）】。
ICA 是假设数据是从 N 个数据源混合组成的，这一点和因子分析有些相似，这些数据源之间在统计上是相互独立的，而在 PCA 中只假设数据是不相关（线性关系）的。
同因子分析同样，若是数据源的数目少于观察数据的数目，则能够实现降维

https://cloud.tencent.com/developer/column/5337/tag-125html

1.PCA简介

PCA（Principal Component Analysis）：也是一个梯度分析的应用，不只是机器学习的算法，也是统计学的经典算法html5

1.1 举个例子

例以下面一个两个特征的一个训练集，咱们能够选择一个特征，扔掉一个特征java

1.1-1node

下图分别是扔掉了特征一和特征二的两种方案，很明显右边这种的效果会更好一些，由于访问二扔掉特征二之后，点之间的分布状况更接近与原图，可是这不是更好的python

1.1-2jquery

咱们但愿有一根直线，是斜着的，咱们但愿将全部的点都映射到这条直线上，那么这个时候咱们就成功的将二维降到了一维，与此同时，这些点更加趋近与原来的点的分布状况，换句话说，点和点之间的距离比不管是映射到x仍是映射到y周，他们之间的区分度都更加的大，也就更加容易区分linux

1.1-3android

1.2 总结

那么如何找到这个让样本间间距最大的轴? 如何定义样本间间距? 事实上有一个指标能够之间定义样本间的距离，就是方差（Variance）（方差：描述样本总体之间的疏密的一个指标，方差越大，表明样本之间越稀疏，方差越小，表明样本之间越紧密）

1.2-1：方差

1-6

第一步: 将样例的均值归为0 (demean)（归0：全部样本都减去他们的均值），使得均值为0，这样能够简化方差的公式

1.2-2

1.3 推导

1.3-1

进行均值归0操做之后，就是下面的式子

1.3-2

注：|Xproject|的平均值也是一个向量

X(i)映射到w的距离实际上就是X(i)与w的点乘（蓝色的线），根据定义推导，其值实际上就是Xproject

1.3-3

此时咱们的目标函数就能够化简成

1.3-4

这是一个目标函数的最优化问题，使用梯度上升法解决。固然咱们也能够之间使用数学原理推导出结果，这里咱们主要关注使用搜索的策略来求解主成分分析法，这样咱们对梯度上升发和梯度降低法也能够有一个更深入的认识

1.4 与线性回归的区别

1.4-1

1.4-2

1.主成分分析法的两个轴都是特征，线性回归y轴是目标结果值 2.主成分分析法的点是垂直于方差轴直线的，线性回归的点事垂直于x轴的

2.使用梯度上升法解决PCA问题

2-1

1.注意上面式子里的每个(X1(i)·w1+X2(i)·w2+......Xn(i)·wn)都是一个X(i)和w的点乘，因此式子能够进一步化解， 2.化简事后能够进行向量化，即每个∑(X(i)·w1)·X1(i) 能够当作是(X·w)这个向量的转置（原本是个行向量，转置后是1行m列的列向量）与X这个矩阵（m行n列）作点乘等到的其中一项的相乘相加的结果 3.最后根据转置法则 ((AB)T=BTAT)转换成最后的结果

2-2

2-3

3.主成分PCA的实现

In [1]:

import numpy as np
import matplotlib.pyplot as plt

In [2]:

X = np.empty((100, 2))
X[:, 0] = np.random.uniform(0., 100., size=100)
# 0.75倍的X[:,0]加上3加上一个噪音
X[:, 1] = 0.75 * X[:, 0] + 3. + np.random.normal(0., 10., size=100)

In [3]:

plt.scatter(X[:, 0], X[:, 1])
plt.show()

均值归0

In [4]:

def demean(X):
    return X - np.mean(X, axis=0)

In [5]:

X_demean = demean(X)
plt.scatter(X_demean[:, 0], X_demean[:, 1])
plt.show()

2.梯度上升法

In [6]:

def f(w, X):
    return np.sum((X.dot(w) ** 2)) / len(X)

In [7]:

def df_math(w, X):
    return X.T.dot(X.dot(w)) * 2. / len(X)

In [8]:

def df_debug(w, X, epsilon=0.0001):
    res = np.empty(len(w))
    for i in range(len(w)):
        w_1 = w.copy()
        w_1[i] += epsilon
        w_2 = w.copy()
        w_2[i] -= epsilon
        res[i] = (f(w_1, X) - f(w_2, X)) / (2 * epsilon)
    return res

In [9]:

def direction(w):
    """计算单位向量"""
    return w / np.linalg.norm(w)


def gradient_ascent(df, X, inital_w, eta, n_iters=1e4, epsilon=1e-8):
    w = direction(inital_w)
    cur_iter = 0

    while cur_iter < n_iters:
        gradient = df(w, X)
        last_w = w
        w = w + eta * gradient
        # 注意1：每次求单位向量
        w = direction(w)
        if abs(f(w, X) - f(last_w, X)) < epsilon:
            break

        cur_iter = cur_iter + 1
    return w

In [10]:

# 初始值不能为0，由于将0带入求导公式，会发现得0，没有任何方向
# 由于对于咱们的目标函数来讲，w=0自己就是一个最小值点

# 注意2：不能从0向量开始
initial_w = np.random.random(X.shape[1])
initial_w

Out[10]:

array([0.20756275, 0.7484594 ])

In [12]:

eta = 0.001
# 注意3：不能使用StandardScaler标准化数据
# 由于咱们原本就是要使得方差最大，而标准化的目的是使得方差为1
# 使用debug模式
gradient_ascent(df_debug, X_demean, initial_w, eta)

Out[12]:

array([0.78302143, 0.62199473])

In [13]:

# 使用math数学解
gradient_ascent(df_math, X_demean, initial_w, eta)

Out[13]:

array([0.78302143, 0.62199473])

In [14]:

w = gradient_ascent(df_math, X_demean, initial_w, eta)
plt.scatter(X_demean[:, 0], X_demean[:, 1])
# 这个轴就是咱们求出的第一个主成分
plt.plot([0, w[0] * 30], [0, w[1] * 30], color='r')
plt.show()