聚类分析和判别分析有类似的做用,都是起到分类的做用。函数
判别分析是已知分类而后总结出判别规则,是一种有指导的学习;学习
聚类分析则是有了一批样本,不知道它们的分类,甚至连分红几类也不知道,但愿用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不一样类的观测相差较多,这是无指导的学习。
因此,聚类分析依赖于对观测间的接近程度(距离)或类似程度的理解,定义不一样的距离量度和类似性量度就能够产生不一样的聚类结果spa
基本原理:从已知的各类分类状况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的类似程度(几率最大,距离最近,离差最小等判别准则)。.net
经常使用判别方法:最大似然法,Bayes判别法,距离判别法,Fisher判别法,逐步判别法等。对象
注意事项:1. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;blog
2. 每一个解释变量不能是其它解释变量的线性组合(好比出现多重共线性状况时,判别权重会出现问题);变量
3. 各解释变量之间服从多元正态分布(不符合时,可以使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差别时,判别函数不相同)。原理
相对而言,即便判别函数违反上述适用条件,也很稳健,对结果影响不大。方法
应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。统计
本文中分三个方法介绍判别分析,Bayes判别,距离判别,Fisher判别。
Bayes 和 距离判别:都要考虑两个、或多个整体协方差(方差是协方差的一种)相等或不等的状况,由 var.equal= 的逻辑参数表示,默认是 FALSE,表示认为两整体协方差不等。
用样本的协方差能够估计整体的协方差。
在Bayes方法中咱们把相等和不等的两个结果都列了出来,距离判别里咱们默认两整体协方差不等。
通常使用时,咱们都以两整体的协方差不等做为标准来进行后续计算。
Bayes判断 假定咱们对研究对象有必定的认识,这种认识经常使用先验几率来描述。。。
取得样本后,用样原本修正已有的先验几率分布,得出后延几率分布。。
再经过后验分布进行各类统计推断。。
参考文献:
https://blog.csdn.net/zhubo22/article/details/8194772 总述 聚类与判别之间的关系
https://blog.csdn.net/tiaaaaa/article/details/58145126 判别分析的实例与原理。
https://blog.csdn.net/chen790646223/article/details/45450301 各类判别和分类方法。