Day 3

时间 2021-07-14 标签八月你好数学建模

Day 3

多元统计

线性回归模型

回归分析方法

指标合成方法

不同结果差异的度量方法

多元统计

聚类分析

聚类分析，按字面意思就是把同一类(相似性高)的东西聚集在一起的一种统计方法。
ccc表示要计算半偏R2，R2和ccc立方聚类标准统计量，这三个统计量和下面的伪F和伪t2统计量，主要用于检验聚类的效果。当把数据从G+1类合并为G类时，*半偏R2统计量说明了本次合并信息的损失程度，统计量大表明损失程度大。*R2统计量反映类内离差平方和的大小，统计量大表明类内离差平方和小。ccc统计量的值大说明聚类的效果好。
一般认为，伪F统计量出现峰值时的所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时，伪t2统计量的值大，说明不应该合并这两类。
一般步骤：

每个样本分成一类
由距离矩阵或相似性系数矩阵D，找到最小的Dij，并将Gi和Gj合并成一个新类
重新计算类间的距离，得到新的矩阵D
重复第二步直到全部合为一类

判别分析

判别分析，就是在已经把某种东西分成若干类的情况下，根据样本的信息来判断样本应属于哪一类的方法。
分类的规则称为判别规则。
描述判别规则的函数叫做判别函数。
贝叶斯判别法：计算样品属于每个分类的概率，将样品归为最大概率的那个类

主成分分析

主成分分析，是通过降维将多个多个变量化为少数几个主成分(即综合变量,通常表示为原始变量的线性组合)的统计分析方法。
步骤：

.对原始数据矩阵进行标准化处理(相当于对原始变量进行坐标平移与尺度伸缩)；
求协方差矩阵Z；
特征分解得Z(相当于将原来的坐标轴进行旋转得到新的坐标轴U)，得Z的p个非负特征值，这p个特征值就是主成分的方差；
确定主成分个数（根据累积贡献率）；
写出主成分表达式；
构造评价函数

因子分析

对于所研究的某一具体问题，原始变量就可以分解成两部分之和的形式，一部分是少数几个不可测的所谓公共因子的线性函数，另一部分是与公共因子无关的特殊因子

线性回归模型

回归分析方法

回归分析，就是对平面上一些散布的点，采用一条最好的直线去表达.

一元线性回归

多元线性回归

回归模型的假设检验

1、回归方程的显著性检验
2、回归系数的显著性检验
复相关系数

指标合成方法

数据预处理

数据的归一化处理，可以消除各个指标的取值范围不同，量纲与意义不同的影响。

客观权重确定的三种方法

熵权法

根据每个指标的信息量大小赋予权重
公式：
Ej越小，表明数据间差异越大，因此提供的信息越大，该指标权重就越大。

标准离差法

如果某个指标的标准差大，提供的信息就大，该指标的权重就大
公式：

CRITIC法确定权重

在标准离差法的基础上

不同结果差异的度量方法

平均差异：数据差异的总和的平均值di代表每一项的差异，n代表数据个数，d为平均差异

用平均差异构成的序列的标准差来度量每个方法差异的波动程度。
matlab代码参西工大10.1课件