来源:CSDN算法
本文约3000字,建议阅读5分钟机器学习
本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、几率分布、降维、过采样/欠采样、贝叶斯统计方法。函数
本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、几率分布、降维、过采样/欠采样、贝叶斯统计方法。学习
从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。可是,经过统计学咱们能够以更富有信息驱动力和针对性的方式对数据进行操做。所涉及的数学理论帮助咱们造成数据的具体结论,而不只仅是猜想。事件
利用统计学,咱们能够更深刻、更细致地观察数据是如何进行精确组织的,而且基于这种组织结构,如何可以以最佳的形式来应用其它相关的技术以获取更多的信息。今天,咱们来看看数据分析师须要掌握的5个基本的统计学概念,以及如何有效地进行应用。数据分析
01 特征统计数学
特征统计多是数据科学中最经常使用的统计学概念。它是你在研究数据集时常用的统计技术,包括误差、方差、平均值、中位数、百分数等等。理解特征统计而且在代码中实现都是很是容易的。请看下图:io
上图中,中间的直线表示数据的中位数。中位数用在平均值上,由于它对异常值更具备鲁棒性。第一个四分位数本质上是第二十五百分位数,即数据中的25%要低于该值。第三个四分位数是第七十五百分位数,即数据中的75%要低于该值。而最大值和最小值表示该数据范围的上下两端。class
箱形图很好地说明了基本统计特征的做用:变量
当箱形图很短时,就意味着不少数据点是类似的,由于不少值是在一个很小的范围内分布;
当箱形图较高时,就意味着大部分的数据点之间的差别很大,由于这些值分布的很广;
若是中位数接近了底部,那么大部分的数据具备较低的值。若是中位数比较接近顶部,那么大多数的数据具备更高的值。基本上,若是中位线不在框的中间,那么就代表了是偏斜数据;
若是框上下两边的线很长表示数据具备很高的标准误差和方差,意味着这些值被分散了,而且变化很是大。若是在框的一边有长线,另外一边的不长,那么数据可能只在一个方向上变化很大
02 几率分布
咱们能够将几率定义为一些事件将要发生的可能性大小,以百分数来表示。在数据科学领域中,这一般被量化到0到1的区间范围内,其中0表示事件肯定不会发生,而1表示事件肯定会发生。那么,几率分布就是表示全部可能值出现的概率的函数。请看下图:
常见的几率分布,均匀分布(上)、正态分布(中间)、泊松分布(下):
均匀分布是其中最基本的几率分布方式。它有一个只出如今必定范围内的值,而在该范围以外的都是0。咱们也能够把它考虑为是一个具备两个分类的变量:0或另外一个值。分类变量可能具备除0以外的多个值,但咱们仍然能够将其可视化为多个均匀分布的分段函数。
正态分布,一般也称为高斯分布,具体是由它的平均值和标准误差来定义的。平均值是在空间上来回变化位置进行分布的,而标准误差控制着它的分布扩散范围。与其它的分布方式的主要区别在于,在全部方向上标准误差是相同的。所以,经过高斯分布,咱们知道数据集的平均值以及数据的扩散分布,即它在比较广的范围上扩展,仍是主要围绕在少数几个值附近集中分布。
泊松分布与正态分布类似,但存在偏斜率。象正态分布同样,在偏斜度值较低的状况下,泊松分布在各个方向上具备相对均匀的扩散。可是,当偏斜度值很是大的时候,咱们的数据在不一样方向上的扩散将会是不一样的。在一个方向上,数据的扩散程度很是高,而在另外一个方向上,扩散的程度则很是低。
若是遇到一个高斯分布,那么咱们知道有不少算法,在默认状况下高思分布将会被执行地很好,所以首先应该找到那些算法。若是是泊松分布,咱们必需要特别谨慎,选择一个在空间扩展上对变化要有很好鲁棒性的算法。
03 降维
降维这个术语能够很直观的理解,意思是下降一个数据集的维数。在数据科学中,这是特征变量的数量。请看下图:
上图中的立方体表示咱们的数据集,它有3个维度,总共1000个点。以如今的计算能力,计算1000个点很容易,但若是更大的规模,就会遇到麻烦了。然而,仅仅从二维的角度来看咱们的数据,好比从立方体一侧的角度,能够看到划分全部的颜色是很容易的。经过降维,咱们将3D数据展示到2D平面上,这有效地把咱们须要计算的点的数量减小到100个,大大节省了计算量。
另外一种方式是咱们能够经过特征剪枝来减小维数。利用这种方法,咱们删除任何所看到的特征对分析都不重要。例如,在研究数据集以后,咱们可能会发现,在10个特征中,有7个特征与输出具备很高的相关性,而其它3个则具备很是低的相关性。那么,这3个低相关性的特征可能不值得计算,咱们可能只是能在不影响输出的状况下将它们从分析中去掉。
用于降维的最多见的统计技术是PCA,它本质上建立了特征的向量表示,代表了它们对输出的重要性,即相关性。PCA能够用来进行上述两种降维方式的操做。
04 过采样和欠采样
过采样和欠采样是用于分类问题的技术。例如,咱们有1种分类的2000个样本,但第2种分类只有200个样本。这将抛开咱们尝试和使用的许多机器学习技术来给数据建模并进行预测。那么,过采样和欠采样能够应对这种状况。请看下图:
在上面图中的左右两侧,蓝色分类比橙色分类有更多的样本。在这种状况下,咱们有2个预处理选择,能够帮助机器学习模型进行训练。
欠采样意味着咱们将只从样本多的分类中选择一些数据,而尽可能多的使用样本少的分类样本。这种选择应该是为了保持分类的几率分布。咱们只是经过更少的抽样来让数据集更均衡。
过采样意味着咱们将要建立少数分类的副本,以便具备与多数分类相同的样本数量。副本将被制做成保持少数分类的分布。咱们只是在没有得到更多数据的状况下让数据集更加均衡。
05 贝叶斯统计
彻底理解为何在咱们使用贝叶斯统计的时候,要求首先理解频率统计失败的地方。大多数人在听到“几率”这个词的时候,频率统计是首先想到的统计类型。它涉及应用一些数学理论来分析事件发生的几率,明确地说,咱们惟一计算的数据是先验数据(prior data)。
假设我给了你一个骰子,问你掷出6点的概率是多少,大多数人都会说是六分之一。
可是,若是有人给你个特定的骰子总能掷出6个点呢?由于频率分析仅仅考虑以前的数据,而给你做弊的骰子的因素并无被考虑进去。
贝叶斯统计确实考虑了这一点,咱们能够经过贝叶斯法则来进行说明:
在方程中的几率P(H)基本上是咱们的频率分析,给定以前的关于事件发生几率的数据。方程中的P(E|H)称为可能性,根据频率分析获得的信息,实质上是现象正确的几率。例如,若是你要掷骰子10000次,而且前1000次所有掷出了6个点,那么你会很是自信地认为是骰子做弊了。
若是频率分析作的很是好的话,那么咱们会很是自信地肯定,猜想6个点是正确的。同时,若是骰子做弊是真的,或者不是基于其自身的先验几率和频率分析的,咱们也会考虑做弊的因素。正如你从方程式中看到的,贝叶斯统计把一切因素都考虑在内了。当你以为以前的数据不能很好地表明将来的数据和结果的时候,就应该使用贝叶斯统计方法。
编辑:文婧