统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。数据库
描述统计(discriptive statistics)工具
描述统计(discriptive statistics):研究的是数据收集、处理、汇总、图表描述、归纳与分析等统计方法。
描述统计其实就是对数据进行整体特征的概述,例子:说一下班级此次考试的状况如何spa
推断统计(inferential statistics)设计
推断统计(inferential statistics):是研究如何利用样本数据来推断整体特征的统计方法
推断统计实际上是创建在描述统计的基础之上,在对整体数据有了大体的了解以后,运用一些分析方法,对数据进行预测,并达到统计决策的目的,其实不论是在统计学上,仍是在实际的业务分析中,咱们作分析的终极目的就是用来得出咱们结论,应用于决策。例如:房价预测,经过预测数据来进行销售,用户看到房价走势,若是一路走高,是否是要提前下手。3d
一、设计code
全过程最关键的一步,良好的开端是成功的一半 选题--明确研究目的--提出假设--明确整体范围--确立观察指标--控制研究中的偏移--给出具体的研究方案orm
二、收集blog
收集数据,来源数据库,问卷等ip
三、整理io
数据整理很是重要,如今的数据处理工具也比较好用,必定要把数据清洗干净,数据清洗好了才能得出正确的结论
四、分析
统计描述:了解样本数据的状况,是所有工做的基础,是尽可能精确、直观而全面的对所得到的样本进行呈现
统计推断:从样本信息外推到整体,以得到对所感兴趣问题的解答
参数估计:样本---->所在整体特征
从图中咱们能够获取什么?
集中趋势
高峰组段在什么位置
离散趋势
数据分布范围是什么,分散程度如何
分布形状
是否对称,分布曲线的形状
正负偏
分布特征
偏态 峰态
描述一组数据在数量上的平均水平
整体均数和样本均数的符号
均数的优势:
- 高度浓缩了数据的精华,使大量的观测数据转变成一个表明性的数值。比较敏感,数据任何一个值发生变化,均数都会随之改变。
- 你们熟知、都比较喜欢用、便于比较和传播
均数的缺点:
- 大锅饭:把各个观测数据之间的差别性掩盖了
- 均数受极值的影响很大
在均数很差用的时候,咱们能够考虑使用中位数
将全体数据从小到大排列,在整个数列中处于中间位置的那个值就是中位数
个数为奇数的中间的那个数字, 个数为偶数中间俩个数字相加除以2
中位数的优势:
不受极端值的影响,在具备个别极大或极小值的分布数列中,中位数比均数更具备表明性
中位数的缺点:
不是全部人都能理解
损失信息:只考虑居中位置,其余变量值比中位数大多少或小多少,它没法反映出来,因此咱们也是只能看到部分信息。
中位数的应用场景:对于对称性的数据,优先均数,仅仅对于均数不能使用的状况才使用中位数加以描述。
一组数据当中,出现次数最多的那个数,工做中用的不多
均数:average()
中位数:median()
众数:mode()
提问:若是用平均数来表明样本平均水平的话,对个体而言,什么指标能够表明其离散程度大小
个体偏离均值的程度
提问:能否用离均差的总和来表示整个样本的离散程度
不能够,离均差有正负之分,加和会抵消为0
那怎么办,怎么解决正负号的问题?
能够考虑绝对值
but这种方式不便于计算
该怎么办,怎么找到一种既好算,又能处理正负号的问题?
求离均差的平方和
可是若是比较两个样本的离均差,一个样本量是10个,一个是1000个,实际上两者的离散程度是同样的,可是由于数量不一样,形成平方和相加和数值差别很大,这该怎么办?
显然,咱们发现离均差平方和的大小跟样本量有关
若是咱们可以把离均差平方和/样本量,是否是就解决了这个问题
那其实这个就是方差的概念
整体标准差=离均差平方和/样本量
方差开根号,是咱们平常生活中经常使用的表明离散程度的指标
可是在实际的工做中,咱们对于整体的数据每每是没法获取的,因此一般是经过随机抽取部分样本数据进行计算,所以公式稍微有点差异
变异系数 = 标准差/均值
变异系数解决了不一样样本变异程度对比的问题
P2五、P50和P75分位数分别称做下四分位数,中位数 上四分位数
方差:var.s(num1,num2,....)
标准差:stdev.s(num1,num2,....)
变异系数:标准差/均值
百分位数:percentile.inc(array,k)
四分位数:quartile.inc(array,k)
针对某种分布进行进一步的特征描述,常见的是用于正态分布的两个指标
- 偏度系数 正态 正偏态 负偏态
- 峰度系数 正态 平阔峰 尖峭峰
偏度:skew()
峰度:kurt()