一,基本概念
众数 出现次数最多的
均值
推论统计,用样原本推论整体,样本是整体的子集
方法:多练习,多找实例
二,平均数
平均数:均值、中位数、众数
加权平均数,同样是总数/个数。如1出现4次,2出现6次,3出现1次。加权平均=1*4+2*6+3=19
中位数对极值不敏感,1 2 3 4 99 中位数是3,但平均数是20多,不能表明这个数组。
中位数表明个体的中心点,平均数表明值的中心
应用场景
见书
三,变异性,也叫离散度、散布
平均数,变异性都是统计里的重要方面,计算每一个数值和均值的差别性
数据分布共4方面不一样:平均值、变异性、偏度、峰度
极差:最大值-最小值
标准差:每一个数与均值的平均距离。N-1是为了使计算的标准差大于实际的,科学家的保守性,不得不出错,出错也是太高估计了标准差。

方差:标准差没开根号前。通常标准差更具备解释意义。
四,统计图表
容易说明问题,
好图表的十条原则,见书,之后未提到内容均见书:
1,频数分布
组距的选择:选择包含2,5,10,20个数据点的组距,使得10-20个这样的组距能够覆盖全部数据。
好比有100-400的范围,咱们想分10个组,则组距为300/10=30
2,创建直方图,高度表明频数。每一个直放表明一组,从小到大排列好。频数多边形。都相似的展现。
累计频数,把频数叠加起来。
图的应用:
柱状图: 比较不一样分类的频数
线图:表示数据的趋势,如每一年入学人数变化,
饼图:占比例分析,不一样类别项目的比例分布
五,计算相关系数
描述两个变量之间的限行关系,-1 -> 1
两个变量共享许多特征,才有相关性。好比身高和体重,共享了养分,健康情况,基因等等。
皮尔逊系数来计算公式(用于定距和定距变量的相关性,直接用软件计算):

散点图,XY表明两个变量。彻底相关是不可能的(表明两个变量共享全部变量),0.7-0.8就是通常统计的最大相关了
关联并不表明因果,如消费冰淇淋和犯罪率相关度高,仅表明共享了一些特征。夏天气温高,所以冰淇淋消费多,气温高,所以开门开窗多,致使犯罪增长
选哪个公式来计算相关系数?见下表
六,有趣的应用 描t值,两个群体的独立均值t检验 117页图表理解,选检验流程 非独立性t值 一个群体使用xx前和xx后的对比