Day 3

多元统计

聚类分析

聚类分析,按字面意思就是把同一类(相似性高)的东西聚集在一起的一种统计方法。
ccc表示要计算半偏R2,R2和ccc立方聚类标准统计量,这三个统计量和下面的伪F伪t2统计量,主要用于检验聚类的效果。当把数据从G+1类合并为G类时,*半偏R2统计量说明了本次合并信息的损失程度,统计量大表明损失程度大。*R2统计量反映类内离差平方和的大小,统计量大表明类内离差平方和小。ccc统计量的值大说明聚类的效果好。
一般认为,伪F统计量出现峰值时的所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,伪t2统计量的值大,说明不应该合并这两类。
一般步骤:

  1. 每个样本分成一类
  2. 由距离矩阵或相似性系数矩阵D,找到最小的Dij,并将Gi和Gj合并成一个新类
  3. 重新计算类间的距离,得到新的矩阵D
  4. 重复第二步直到全部合为一类

判别分析

判别分析,就是在已经把某种东西分成若干类的情况下,根据样本的信息来判断样本应属于哪一类的方法。
分类的规则称为判别规则
描述判别规则的函数叫做判别函数
贝叶斯判别法:计算样品属于每个分类的概率,将样品归为最大概率的那个类

主成分分析

主成分分析,是通过降维将多个多个变量化为少数几个主成分(即综合变量,通常表示为原始变量的线性组合)的统计分析方法。
步骤:

  1. .对原始数据矩阵进行标准化处理(相当于对原始变量进行坐标平移与尺度伸缩);
  2. 求协方差矩阵Z;
  3. 特征分解得Z(相当于将原来的坐标轴进行旋转得到新的坐标轴U),得Z的p个非负特征值,这p个特征值就是主成分的方差;
  4. 确定主成分个数(根据累积贡献率);
  5. 写出主成分表达式;
  6. 构造评价函数

因子分析

对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子在这里插入图片描述

在这里插入图片描述

线性回归模型

回归分析方法

回归分析,就是对平面上一些散布的点,采用一条最好的直线去表达.

一元线性回归

多元线性回归

回归模型的假设检验

1、回归方程的显著性检验
2、回归系数的显著性检验
复相关系数

指标合成方法

数据预处理

数据的归一化处理,可以消除各个指标的取值范围不同,量纲与意义不同的影响。

客观权重确定的三种方法

熵权法

根据每个指标的信息量大小赋予权重
公式:
在这里插入图片描述Ej越小,表明数据间差异越大,因此提供的信息越大,该指标权重就越大。
在这里插入图片描述

标准离差法

如果某个指标的标准差大,提供的信息就大,该指标的权重就大
公式:
在这里插入图片描述

CRITIC法确定权重

在标准离差法的基础上

不同结果差异的度量方法

平均差异:数据差异的总和的平均值在这里插入图片描述di代表每一项的差异,n代表数据个数,d为平均差异
在这里插入图片描述
用平均差异构成的序列的标准差来度量每个方法差异的波动程度。
matlab代码参西工大10.1课件