聚类分析,按字面意思就是把同一类(相似性高)的东西聚集在一起的一种统计方法。
ccc表示要计算半偏R2,R2和ccc立方聚类标准统计量,这三个统计量和下面的伪F和伪t2统计量,主要用于检验聚类的效果。当把数据从G+1类合并为G类时,*半偏R2统计量说明了本次合并信息的损失程度,统计量大表明损失程度大。*R2统计量反映类内离差平方和的大小,统计量大表明类内离差平方和小。ccc统计量的值大说明聚类的效果好。
一般认为,伪F统计量出现峰值时的所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,伪t2统计量的值大,说明不应该合并这两类。
一般步骤:
判别分析,就是在已经把某种东西分成若干类的情况下,根据样本的信息来判断样本应属于哪一类的方法。
分类的规则称为判别规则。
描述判别规则的函数叫做判别函数。
贝叶斯判别法:计算样品属于每个分类的概率,将样品归为最大概率的那个类
主成分分析,是通过降维将多个多个变量化为少数几个主成分(即综合变量,通常表示为原始变量的线性组合)的统计分析方法。
步骤:
对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子
回归分析,就是对平面上一些散布的点,采用一条最好的直线去表达.
1、回归方程的显著性检验
2、回归系数的显著性检验
复相关系数
数据的归一化处理,可以消除各个指标的取值范围不同,量纲与意义不同的影响。
根据每个指标的信息量大小赋予权重
公式:
Ej越小,表明数据间差异越大,因此提供的信息越大,该指标权重就越大。
如果某个指标的标准差大,提供的信息就大,该指标的权重就大
公式:
在标准离差法的基础上
平均差异:数据差异的总和的平均值di代表每一项的差异,n代表数据个数,d为平均差异
用平均差异构成的序列的标准差来度量每个方法差异的波动程度。
matlab代码参西工大10.1课件