统计学方法与数据分析学习笔记1


用于质量改进和再造工程的统计工具、技术和方法:工具

 

直方图spa

数值描述量(均值、标准差、比例等)设计

散点图3d

线图(在散点图中用线链接各点)blog

控制图:(样本均值),r(样本极差),及s(样本标准差)数据分析

抽样方案变量

试验设计方法

 

收集数据要有意识的作好如下几步:im


详细说明研究、调查或试验的目标技术

肯定所关心的变量

为调查或科学研究选择适当的设计方案

收集数据

 

抽样的方法:

简单随机抽样

分层随机抽样

比估计

总体抽样

系统抽样

 

 

统计领域能够分为两个主要分支:描述统计与推断统计

 

适当的归纳性度量能够为原始测量值的集合提供一幅良好的、粗线条的描绘。经过把一大堆测量值缩减到几个这样的描述性统计量,咱们能够理解数据所包含的信息

 

单个变量的数据数值描述性度量

 


最经常使用的两类数值描述性度量是 中心趋势度量 和 变异性度量。也就是说,咱们但愿描述测量值分布的中心,并弄清测量值是如何相对于分布中心变化的。为了把整体的数值描述性度量和样本的数值描述性度量区别开来,称前者为 参数,后者为 统计量。在统计推断的有关问题中,不能计算各类参数的数值,但能够计算来自样本的相应的统计量,并用获得的数值去估计相应的整体参数。

 

 

中心趋势度量

众数

中位数

算术平均值

均值      是对一组测量值中心的经常使用的度量,但它会因为在集合中一个或多个极端值的出现而发生失真。在这样的状况下,极端值(又称做 离群值)会使均值偏向本身一方以找到数据的平衡点,所以而歪曲了均值最为中心值度量的意义。对均值的一种变通方法是截尾均值,即去掉最大和最小的若干数值,对其他的数做平均。

 

记 众数Mo 中位数Md 均值μ 截尾均值TM

这些中心趋势度量之间有何联系

答案依赖于数据的 偏倚程度(偏度)

 

 

 

 

 

要记住的重要一点是:咱们不能局限于仅用一种中心趋势度量。对某些数据集合,有必要用多种度量,才能对数据的中心趋势作出准确的描述性的归纳。

 

 


变异性度量:


极差    最大与最小的差值

 

百分位数    n个按大小排列的测量值集合的p%分位数 是指这样的一个数值,集合中至多 p%的测量值比它小,有至多(100-p%的测量值比它大。

 

 

 

四分位数间距(IQR

指在四分之三和四分之一分数位之间的差别,即

     IQR  =  75%的分位数 - 25%的分位数

 

离差 (测量值与平均值的差)

方差

标准差

变异系数 标准差/|均值|

 


参考文献:


 统计学方法与数据分析 R.L.奥特、M.朗格内克