读书笔记《百面机器学习》二

降维

高维向量处理的时候会极大的消耗系统资源。

降维方法:
    主成分分析、线性判别分析、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影。

PCA最大方差理论

咱们假设原始数据的特征向量组成的高维空间有不少冗余和噪声。

降维的意义:
    去掉噪声数据。
    
    寻找内部特征,提高特征表达能力,下降训练复杂度。
    

主成分分析(PrincipalComponentsAnalysis,PCA):
    经典
    
    线性、非监督、全局的降维算法。

主成分是什么?

使用二维空间直观理解:
    有一条“主轴”使得原始样本数据分布的很“分散”。
    
    原始数据在“主轴”这个方向上“方差更大”。
    
类别信号处理:
    信号具备较大方差,
    
    噪声具备较小方差。
    
    信噪比越大意味着数据质量越高。
    
PCA的缺点:

PCA的优化目标

最大化投影方差,也就是让数据在主轴上投影的方差最大。

PCA优化过程

一、样本数据中心化处理
        为了后面计算方差的方便
    
    二、求样本协方差矩阵
    
        假设一个投影方向的单位方向向量为w。
        注意,最后求出的w由w1,w2...,wd组成,
        另外w跟样本数据的维度同样,
        w自己是样本数据投影在上面方差的向量。
        单位方向向量方便求解。
        
        那么原始样本向量xi在假设向量w上的投影公式:

image.png

那么投影后的方差能够表示为:

image.png

公式中wt和w中间的就是样本协方差矩阵,记作Σ。


    三、对协方差矩阵进行特征值分解,将特征值从大到小排列。

        转化为在特定条件下最大化问题,问题表示为:

image.png

引入拉格朗日乘子对w求导得出公式:

image.png

进而得出这个:

image.png

由这个公式得出x投影后的方差就是协方差矩阵的特征值。
            
            解释上句话:Σ是样本的协方差矩阵,λ 是Σ的特征值。D(x)是投影后的方差,与λ相等。
            
        因此推导这么多,咱们找到了要找的方差,那就是样本协方差矩阵的特征值。  
        
        最大投影方向也就找到了,
        那就是样本协方差矩阵最大特征值所对应的特征向量(根据特征值与特征向量的性质)。
        第二大也就是第二大特征值对应的特征向量。
    
    四、取特征值前d大对应的特征向量ω1,ω2,...,ωd
        至关于样本保留前d大投影方向的数据性质。
            
        n维样本映射到d维公式:

image.png

降维后的信息占比:

image.png

大概能够理解为前d个特征值与全部特征值占比。

PCA最小平方偏差理论

相关文章
相关标签/搜索