知识点汇总
如下全部知识点是我在期末复习过程当中本身整理的,采用类似算法对比分析的方式进行总结。算法
- 从判别函数的角度分析判别函式模型与生成式模型;
- 根据判别函数的输出来决定待识别模式属于哪一个类别,这类方法所采用的模型称做判别式模型。而对于生成式模型,以贝叶斯分类器为例,不能构造区分不一样类别的判别函数,而是考察待识别模式由不一样类别所产生的几率,根据不一样类别产生该模式的几率大小来决定他的类别属性。(参照《模式识别》158页)
- 最大似然估计与贝叶斯估计:
- 贝叶斯分类器能够经过计算先验几率(比较简单)与类条件几率来设计最优分类器,贝叶斯分类器须要解决的关键问题就是对类条件几率的估计,但实际上难以获得有关问题的几率结构所有知识,每每就是类条件几率,是几率密度函数。所以须要参数估计方法与非参数估计方法。贝叶斯分类器实际是类条件几率密度函数的估计,描述样本的内在规律与个体差别。
- 最大似然估计与贝叶斯估计都属于参数估计方法,假定了几率密度函数后须要估计分布的参数。两者在参数估计完成后,都使用后验几率做为分类准则。
- 最大似然估计把待估计的参数看做是肯定性的量,只是取值未知,最佳估计就是使得产生已观测到的样本的几率为最大的那个。(经过创建似然函数,求得似然函数的最优解,肯定最有可能产生训练样本集合做为参数的最大似然估计)
- 贝叶斯估计则把待估计的参数当作是符合某种先验几率分布的随机矢量。对样本D进行观测的过程,就是把 先验几率密度 转化为 后验几率密度,这样就利用样本信息修正了对参数的初始估计值。(利用训练样本集合估计出参数矢量的分布,而在识别时须要考虑全部可能参数产生待识别样本的平均值,也能够是积分)(看PPT),优势是在小样本集条件下的估计准确率。
-贝叶斯估计的识别过程是类条件几率密度的计算,学习过程是参数后验几率密度的估计。
参数化方法与非参数化方法(模式分类84页):网络
- 对于几率密度函数的估计大体能够分为两类:参数估计法和非参数估计法。这两种方法最主要的区别在因而否须要知道几率密度函数的分布形式。
- 参数化方法,须要对每一个类别样本的分布状况具备必定先验知识,假定类条件几率密度是某种形式的分布函数。该几率密度函数由一组参数决定,最后利用已知的训练样本集合估计出具体的分布参数。
- 非参数化方法不须要对类条件几率密度的分布形式作出假设,而是直接利用训练样本集合对几率密度函数作出估计,也就是省略几率估计,直接计算后验几率,即设计判别函数。可以处理任意几率分布,没必要假设形式。K近邻法就是直接估计每一个类别的后验几率。
- PCA与FDA:
- PCA和FDA的方法,将样本向一个特定的线性子空间进行投影,从而实现对特征维数进行压缩的目的,可是两者出发点不一样。
- PCA不考虑样本的类别属性,以样本信息损失最小为目标,按照均方偏差最小准则来寻找最优的投影子空间。具体作法是首先计算样本的协方差矩阵,以及该矩阵的特征值与特征向量,而后选择对应最大特征值的若干个特征向量,构成最优子空间基矢量。因为没有考虑样本的类别信息,所以PCA只是对样本信息保留意义下的最优投影子空间,而对类别的可分性信息的保留则不是最优,可能降维后丢失可分性信息。PCA的基向量具备正交性,不相关性,特征值。
- FDA寻找的是使得类别可分性最强意义下的最优投影子空间,在增大类别之间距离的同时缩小同类样本的距离,具体作法是首先计算类别的类内散度矩阵\(S_w\)和类间散度矩阵\(S_b\),而后计算矩阵\(S_w^{-1}S_b\)的特征值和特征向量,选择对应大特征值的若干个特征向量构成投影子空间的基矢量,FDA存在的问题是非零特征值的个数最多只有类别数减1个。FDA不具备正交性。
- 广义线性判别函数与支持向量机:
- 广义线性判别函数分类器属于线性分类器的非线性推广,SVM自己属于线性分类器,可是加入核函数以后也进行了非线性推广。(两种经常使用的非线性分类器是多层感知器网络与SVM)
- 广义线性判别函数,将原始特征经过一个非线性映射,映射到一个高维空间,而后在高维空间中构造线性判别函数,使得低维特征空间下的非线性可分问题,有可能变成高维空间的线性可分问题,其在高维空间获得的线性判别函数对应于低维空间的非线性判别函数。广义线性判别函数的问题有:阶数问题,很难肯定告判别函数的阶数;维数问题,当原始特征维数较大时,会形成维数灾难。
- 非线性SVM采用与广义线性判别函数相同的思路来实现非线性判别,不过利用了一种巧妙的方式,核函数,避免了直接在高维特征空间中计算,这样即便对于特别高维的特征空间,避免维数灾难的问题,也能够有效地进学习和实现非线性判别。特征空间中的两个矢量的内积能够经过定义输入空间中的核函数直接计算获得。不过其应用条件是核函数能对应于特征空间的内积,并且识别过程不须要计算特征矢量空间自己,只是须要计算特征矢量空间的内积。
- 聚类分析的主要思想,以及聚类分析存在的主要问题:
- 聚类分析属于无监督学习,将没有类别标记的一组样本划分为若干子集,每一个子集内样本具备类似性,而不一样子集的样本之间具备差别性。从理论上讲,聚类分析能够看做是一个混合密度估计问题。
- 聚类分析的主要问题在于虽然能够对聚类结果提出某种评价准则,如偏差平方和准则、散布准则,但对这些准则的优化确实是一个组合优化问题,穷举法属于NP问题,穷举计算不现实。目前只能采用次优的迭代算法,经过随机初始化,不断迭代使得准则函数减少,直到收敛,可是不能保证收敛于最优解。同时聚类结果受到算法初始值影响严重、距离函数选择的影响。而且某些聚类问题还有多是不可辨识问题。
- 感知器算法与LMSE
- 感知器是算法以错分样本到判别界面距离之和做为准则。
- 最小均方偏差算法将不等式组求解转化为方程组的求解,以解得偏差矢量的长度平方最小准则。
- 感知器算法的特征是当样本集合线性可分时算法收敛,但样本不可分时算法没法收敛,通常来讲算法收敛速度较慢。
- 最小均方偏差算法当样本不可分时也能收敛于均方偏差最小解,当样本数区域无穷时以均方偏差逼近贝叶斯判别函数,可是当样本线性可分的时候,可能没法获得最优判别界面。
- SVM的基本思想,并说明SVM能够实现最优线性分类器的缘由
- 支持向量机是在全部可以将两类样本分开的线性分类界面中寻找一个最优判别函数,使得分类超平面距离两类样本最远。支持向量机的优化准则可使得分类器的VC维下降,使得其泛化能力达到最大,所以是最优的线性分类器。