LDA线性判别分析原理

这里咱们就对另一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 如下简称LDA)作一个总结。LDA在模式识别领域(好比人脸识别,舰艇识别等图形图像识别领域)中有很是普遍的应用,所以咱们有必要了解下它的算法原理。
在学习LDA以前,有必要将其天然语言处理领域的LDA区别开来,在天然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),他是一种处理文档的主题模型。咱们本文只讨论线性判别分析,所以后面全部的LDA均指线性判别分析。
1. LDA的思想
LDA是一种监督学习的降维技术,也就是说它的数据集的每一个样本是有类别输出的。这点和PCA不一样。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想能够用一句话归纳,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 咱们要将数据在低维度上进行投影,投影后但愿每一种类别数据的投影点尽量的接近,而不一样类别的数据的类别中心之间的距离尽量的大。
可能仍是有点抽象,咱们先看看最简单的状况。假设咱们有两类数据 分别为红色和蓝色,以下图所示,这些数据特征是二维的,咱们但愿将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽量的接近,而红色和蓝色数据中心之间的距离尽量的大。算法

image


上图中国提供了两种投影方式,哪种能更好的知足咱们的标准呢?从直观上能够看出,右图要比左图的投影效果好,由于右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了,固然在实际应用中,咱们的数据是多个类别的,咱们的原始数据通常也是超过二维的,投影后的也通常不是直线,而是一个低维的超平面。学习

在咱们将上面直观的内容转化为能够度量的问题以前,咱们先了解些必要的数学基础知识,这些在后面讲解具体LDA原理时会用到。blog

相关文章
相关标签/搜索