1、预备知识介绍spa
为何须要统计量?3d
统计量:描述数据特征blog
1. 集中趋势衡量ip
1.1 均值(平均数,平均值)(mean)input
1.2 中位数(median):将数据中的各个数值按照大小顺序排列,居于中间位置的变量。io
当n为奇数时,直接取位置处于中间的变量class
当n为偶数时,取中间两个量的平均值变量
1.3 众数(mode):数据中出现次数最多的数im
2.离散程度衡量 统计
2.1 方差(variance)
2.2 标准差(standard deviation)
2、介绍:回归(regression) 分类(classification)
回归: Y变量为连续数值型(continuous numerical variable)
如:房价、人数、降雨量
分类: Y变量为类别型(categorical ariable)
如:颜色类别、电脑品牌、有无信誉
3、简单线性回归(Simple Linear Regression)
不少作决定过程一般是根据两个或者多个变量之间的关系
回归分析(regression analysis)用来创建方程模拟两个或者多个变量之间如何关联
被预测的变量叫作因变量(dependent variable),y 输出(output)
被用来进行预测的变量叫作自变量(independent variable),x 输入(input)
4、简单线性回归介绍
简单线性回归包含一个自变量(x)和一个因变量(y)
这两个变量的关系经过一条直线来模拟
若是包含两个以上的自变量,则成为多元回归分析(multiple regression)
5、简单线性回归模型
被用来描述因变量(y)和自变量(x)以及误差(error)之间关系的方程叫作回归模型
简单线性回归模型:
其中:为参数,
为误差。
6、简单线性回归方程(模型求指望)
这个方程对应的图像是一条直线,称为回归线。
其中:是回归线的截距
是回归线的斜率
是在一个给定x值下y的指望值(均值)
注意:这里就没有了,由于
服从正态分布,指望为0
7、正向线性关系
8、负向线性关系
9、无关系
10、估计的简单线性回归方程
这个方程叫作估计线性方程(estimated regression line)
其中:是估计线性方程的截距
是估计线性方程的斜率
是在自变量x等于一个给定值的时候,y的估计值
11、线性回归流程
12、关于误差的假定
是一个随机的变量,均值为0
方差对于全部的自变量x是同样的
值独立的
知足正态分布