从前有一个数字王国,里面的数字们喜欢在一块儿玩,不过它们有点挑剔,老是想跟与本身接近的数字玩,他们以为其余都是远房亲戚,不亲。咱们怎么帮助它们找到合适的一组数字呢?ide
平均数是统计中的一个重要概念。一般用来表示一组统计对象的集中趋势。对象
平均数里面最经常使用的是算术平均数(或称均值)。它是一组数字的和除以数字的个数。排序
在均值用于表示统计对象的通常水平,它是描述数据集中程度的一个统计量。咱们既能够用它来反映一组数据的通常状况,也能够用它进行不一样组数据的比较,以看出组与组之间的差异。it
例如数字20会跟下面两组数字哪一组玩呢?table
A | 19 | 23 | 19 | 21 | 23 | 20 | 21 | 20 | 18 | 22 |
---|---|---|---|---|---|---|---|---|---|---|
B | 43 | 45 | 36 | 45 | 38 | 36 | 39 | 38 | 39 | 41 |
经过计算均值,A组的均值为20.6,B组的均值为40,因此数字20去和A组玩。class
为何要用一个均值这样的叫法,为何不能直接叫平均数呢?统计
由于平均数有好多种:数据
STOP!好吧,咱们就用均值。。异常
数字20又来找人玩,此次的数据组是它们,均值是20,好像没什么问题,可是20好像并不开心:tab
C | 5 | 2 | 5 | 5 | 5 | 3 | 6 | 2 | 84 | 83 |
---|
这是怎么一回事?!
中位数是另外一个表示集中趋势的一个值,中位数不是全部数字计算得出,而是把全部的数按照大小的顺序排列。若是数据的个数是奇数,则中间那个数据就是这组数据的中位数;若是数据的个数是偶数,则中间那2个数据的平均值就是这组数据的中位数。
因此上面的这组数字,应该用中位数来描述。
将全部数字从小到大排列后:
C | 2 | 2 | 3 | 5 | 5 | 5 | 5 | 6 | 83 | 84 |
---|
中位数为第5和第6个数的平均值,也就是5,说明C组集中在了数字5的周围,因此数字20不喜欢和它们一块儿玩。在这里,83,84偏离了总体,是异常值。
那就换一组数字吧,此次的数据组是它们,均值是20,中位数也是20,此次没什么问题了吧?
D | 3 | 5 | 5 | 5 | 6 | 34 | 34 | 36 | 36 | 36 |
---|
众数指一组数据中出现次数最多的数据值。例如在(2,3,3,3)中,出现最多的是3,所以众数是3,众数多是一个数,但也多是多个数。用众数表明一组数据,适合于数据量较多时使用,且众数不受异常值的影响。
D组中出现次数最多的数字是5和36,表示数字分红了两堆接近的数,仍是没有和数字20接近的,数字20也不喜欢和它们玩。
数字20受够了!它要求再找些靠谱的参考标准,好吧,下面是一些参考:
全距又称极差,用来表示一组数据中最大值与最小值之间的差额,即最大值减最小值后所得数值。全距为离散程度的最简单测度值,比较容易受到异常值影响。
上面的四组数据的全距为:
A | B | C | D | |
---|---|---|---|---|
全距 | 5 | 9 | 82 | 33 |
对于数字20来讲,若是全距太大,就有多是个坑。不过光看全距说明不了更多问题,还要进一步来看。
百分位数是将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。
上面四组数据的10%百分位数和90%百分位数分别为:
百分位数 | A | B | C | D |
---|---|---|---|---|
10% | 18.9 | 36 | 2 | 4.8 |
90% | 23 | 45 | 83.1 | 36 |
百分位数对于数字20来讲,是一个很好的参考,能够知道和他大小相仿的数字都集中在什么区域。可是这么多百分位数,选哪一个好呢?
四分位数能够理解为是特定的几个百分位数:25%,50%和75%。将一组数据从小到大排列后:
第一四分位数等于第25%的数字,也叫下四分位数;
第二四分位数等于第50%的数字,也就是中位数;
第三四分位数等于第75%的数字,也叫上四分位数;
第三四分位数与第一四分位数的差距又称四分位距。
四分位距提供了一个简单的判断数字分散程度的指标,对于数字20来讲,能够有效的避免使用百分位数时的选择困难症。
上面四组数据的四分位数以及四分位距为:
四分位数 | A | B | C | D |
---|---|---|---|---|
下四分位数 | 19.25 | 38 | 3.5 | 5 |
上四分位数 | 21.75 | 42.5 | 5.75 | 35.5 |
四分位距 | 2.5 | 4.5 | 2.25 | 30.5 |
这样看来C组彷佛比A组还要好,还有没有更靠谱一些的指标?
方差用来描述一组数的离散程度,它将各个数和均值的差算一下平方,相加以后再除以总数,这样就能够算出各个数据分散的程度。
上面四组数据的方差为:
A | B | C | D | |
---|---|---|---|---|
方差 | 2.64 | 10.2 | 1009.8 | 232 |
C组和D组一会儿就被排除了,偏离了太多。方差更好,不过因为平方了一下,若是想要更直观的表示和均值的距离的话,就要用到下面的标准差:
标准差是方差开平方,反映这组数字的离散程度。
标准差越大,表明大部分的数值和其平均值之间差别较大;标准差越小,表明这些数值较接近平均值。
上面四组数据的标准差为:(保留两位小数)
A | B | C | D | |
---|---|---|---|---|
标准差 | 1.62 | 3.19 | 31.78 | 15.23 |
标准差说明A组数据,平均和均值之间平均差距为1.62,你们都很接近,选这一组就没错了。
数字20:你一开始告诉我标准差不就行了?绕这么多弯子干什么?
上面的每一种值都有各自的适用场合,要根据关注的目标,使用合适的值进行描述,才是最合理的,没有惟一一个最好的衡量值。例如上面四组数据,若是只看标准差,能说明数字比较靠近,但并不能代表这一组数字靠近谁,还须要结合均值来一块儿考虑。