描述性统计量,在不浏览所有数据的状况下,得到数据集中的全距、极值以及分位数信息,同时获得数据大体分布以及数据离散和偏离程度等,这些信息对咱们处理海量数据集的抽样问题,以及建模的指标选取问题都有巨大的做用,就算是咱们机器学习的模型运行后的结果数据,均可以用这些描述信息来得到咱们想要的信息,R得到描述性统计量有多种方法供咱们使用,首先和你们聊一下那些描述性统计量:算法
缺失值,为啥先说缺失值呢,我的理解和一些接触经验,一方面,大数据时代嘛,全部信息都要有,每一个人信息又不一样,那必然致使不一样的就有确失的,信息越多,缺失值越多;另外一方面,作模型所需的指标和信息都会汇成一张宽表,这就致使了若是处理很差缺失值就会丢失不少信息,当年猴哥就作过一件很暴力的事情,直接将含有缺失值的样本所有干掉,结果就是95%的信息都被我干掉了,最后固然是被客户屌了;这里大体说一下我对缺失值的处理,一种是经过缺失值能够定位重要样本,好比关键指标大部分样本都是缺失的,那么没有缺失的最好单独拿出来处理;另外一种是补缺,例如数值型了,缺失值通常能够补0,固然不是全部的均可以补,有时候缺失表明的是一个不一样的未知的种类或者没有这个属性;最后一种是当作一个种类或者一个样本范围外的值来处理。因此找缺失值是比较重要的,当年我找缺失值用过ifnull(这里请加一个悲伤的表情),如今可没那么傻了。机器学习
均值、中位数、众数,这三个一块儿说,由于都是表明样本空间中间的部分;均值不说了,说实话不爱用,对数据分布结构要求有点高,否则没啥用;中位数仍是有点用的,数据排序后最中间的那一个,数据分布有偏斜的状况下中位数仍是能够的;众数就是频度最高的那个数,在数据分布形态为双峰或者多峰的分类变量里面比较好用。函数
分位数,包括四分位和百分位,这个数据是我比较喜欢的了,为啥喜欢,比较靠谱,尤为是全距(最大值与最小值的差)比较大而分位距(俩个分位数相减,例如四分位距是上四分位数减去下四分位数)比较小的时候,相似正态分布什么的,这个时候咱们以5%分位数去头去尾,数据瞬间好看(这种状况下求得的均值咱们叫截尾均值)针对聚类结果,我通常都用这种方法来观察结果的特征。工具
方差、标准差,这俩个是一个意思,表示了数据的波动大小,也就是数据集的变异性,均值分位数等等都只能表明个体,不肯定因素比较多,不少时候不能说明问题或者样本特征,可是加上标准差或者方差,就能肯定数据到底给不给力了。学习
峰度,峰度表明了数据的集中程度,直观上看就是样本越集中在众数附件,峰度越高,其实就是画出来的分布图顶部越尖。大数据
偏度,表示了数据分布的偏斜程度,画个分布图,比较比如较,中位数比均值小,就是靠右偏斜,中位数比均值大,就是向左偏斜,其实就是主要看均值是比大部分值小仍是大;峰度和偏度都是站在全局的角度看数据分布的。排序
绝对中位差,即中位数的绝对误差,算法样本与中位数差的绝对值产生的结果后新的中位数,这个用的比较少,我也不是特了解在什么状况下用,听说是用来估算标准差的。ast
在不额外安装工具包的状况下,base包提供了不少基本方法,包括:
summary:得到极值,均值,四分分位数,至关于得到了箱线图的信息,箱线图是我最喜欢的一幅图,基本针对每个主 指标我都喜欢画一个箱线图。
sd:标准差;
quantile(x,probs):任意分位数等等;变量
固然,基本的东西确定不能让咱们用的很爽,因此你能够本身集成和衍生这些函数,来得到更爽的体验,不过有一些工具包已经提供了衍生的方法来提高咱们的使用体验,好比Hmisc、 pastecs和psych、misc。
Hmisc包,这个包里面提供了一个函数:describe()可返回变量和观测的数量、缺失值和惟一值的数目、平均值、分位数,以及五个最大的值和五个最小的值;方法
pastecs包中有一个名为stat.desc()的函数,它能够计算种类繁多的描述性统计量。经过调参能够得到其中全部值,空值,缺失值的数量,以及最小值,最大值,值域,还有总和,中位数,平均数,平均数的标准误,平均数置信度为95%的置信区间,方差,标准差,变异系数,偏度和峰度,是否是感受很爽;
psych包也拥有一个名为describe()的函数,它能够计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度等信息
misc包提供了一个summarySE()的函数,提供了汇总、平均数、标准差、平均值的标准差和平均数置信度为95%的置信区间
介绍这么多方法主要是在客户那里,有一些环境是封闭的,意思就是有啥你用啥,没啥可挑的,你和客户说要导个包进来,轻轻松松耽误你一天时间,并且可能还不能导,因此就只能看看有哪些可用的,实在没有就只能本身写了。