Evernote Export
- 数据的分布特征能够从三个方面进行测度和描述,一是分布的集中趋势,反映各数据向其中心值靠拢或汇集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
- 平均数在统计学中具备重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,平均数是一组数据的重心所在,是数据偏差相互抵消后的必然结果。
- 好比,对同一事物进行屡次测量,所得结果可能不一致,这是测量偏差所致,也多是其余因素的偶然影响,利用平均数做为其表明值,则能够使偏差相互抵消,反映出事物必然性的数量特征。
- 设下四分位数为QL,上四分位数为QU,根据四分位数的定义
QL=4nspa
QU=43norm
若是位置是整数,四分位数就是该位置对应的值,若是是在0.5的位置上,则取该位置两侧值的平均数,若是在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。it
- 几何平均数是适用于特殊数据的一种平均数。它主要用于计算平均比率。当所掌握的变量值自己是比率的形式时,采用几何平均法计算平均比率更为合理。在实际应用中,几何平均数主要用于计算现象的平均增加率。
- 众数是一组数据分布的峰值,不受极端值的影响。其缺点是具备不惟一性,一组数据可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合做为分类数据的集中趋势测度值。
- 中位数是一组数据中间位置上的表明值,不受数据极端值的影响,当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合做为顺序数据的集中趋势测度值。
- 平均数是针对数值型数据计算的,并且利用了所有数据信息,它是实际中应用最普遍的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个表明值相等或接近相等,这时则应选择平均数做为集中趋势的表明值。可是平均数的主要缺点是易受到数据极端值的影响,对于偏分布的数据,平均数的表明性差。所以,当数据为偏态分布,特别是偏斜程度较大时,能够考虑选择中位数或众数,这时它们的表明性比平均数好。
- 异众比率主要用于衡量众数对一组数据的表明程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的表明性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的表明性越好。异众比率主要适合测度分类数据的离散程度,固然,对于顺序数据以及数值型数据也能够计算异众比率。
- 四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中,其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,因为中位数处于数据的中间位置,所以,四分位差的大小在必定程度上也说明了中位数对一组数据的表明程度。四分位差的大小在必定程度也说明了中位数对一组数据的表明程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也能够计算四分位差,可是它不适合分类数据。
- 方差是各变量值与其平均数离差平方的平均数。方差(或标准差)能较好的反应出数据的离散程度,是实际中应用最广的离散程度测度值。
- 标准分数给出了一组数据中各数值的相对位置。
- 离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。离散系数是测度数据离散程度的相对统计量,主要是用于比较不一样样本数据的离散程度。离散系数越大,说明数据的离散程度也大,离散系数越小,说明数据的离散程度也越小。
- 偏态系数
- 峰态系数