- 原文地址:The 10 Statistical Techniques Data Scientists Need to Master
- 原文做者:James Le
- 译文出自:掘金翻译计划
- 本文永久连接:github.com/xitu/gold-m…
- 译者:HearFishle
- 校对者:mymmon, hu7may
不管你在数据科学是否“性感“的问题上站定何种立场,都没法忽略一个事实:数据,和咱们分析数据、组织数据、肯定数据上下文关系的能力正在愈来愈重要。凭借庞大的就业数据和员工反馈,Glassdoor(一家美国的求职社区,译者注)将数据科学家排在全美最佳的 25 个职位中的第一名。所以,虽然这个角色会依然存在,但毫无疑问,数据科学家们所作的具体任务将会不断进化。随着像机器学习这样的技术的普及,还有像深度学习这样的新兴领域,得到了来自研究人员和工程师们及他们所在的公司的巨大关注,数据科学家们将继续在创新和科技进步的浪潮中乘风破浪。前端
尽管拥有强悍的编程能力是重要的,但数据科学并不彻底是软件工程(事实上,熟悉Python的话会更容易展开工做)。数据科学家须要的是编程,分析和关键性思考的三重能力。正如 Josh Wills 所言,“数据科学家具有比任何编程人员都更丰富的统计学知识,和比任何统计学家都强的编程能力。”据我我的了解,太多的软件工程师想转行成为数据科学家。他们在没有彻底理解数据科学理论的状况下就盲目利用机器学习框架如 TensorFlow 或者 Apache Spark 去处理数据。他们对待统计学习这个基于统计学和泛函分析的机器学习理论框架,也是如此。python
为何要学习统计学习理论? 理解多种技术背后的思想是很重要的,这样便于知道如何以及什么时候使用它们。为了掌握更复杂的方法,人们必须先理解更简单的方法。准确评估方法的性能是很是重要的,这让咱们肯定工做是否正常进行。而且,这是个使人兴奋的研究领域,在科技,工业和金融行业都有这很是重要的应用。归根结底,统计学习是现代数据科学家培训的基本要素。统计学习问题的例子包括有:android
在大学的最后一个学期,我自学了数据挖掘。这门课的材料涵盖了这三本书的内容:Intro to Statistical Learning (Hastie, Tibshirani, Witten, James),Doing Bayesian Data Analysis(Kruschke)和 Time Series Analysis and Applications(Shumway,Stoffer)。我作了大量和贝叶斯分析,马尔可夫链,分层建模,监督和无监督学习相关的练习。这个经历加深了我对数据挖掘学术领域的兴趣,并使我确信要向更深处探索。最近,我在 Stanford Lagunita 自学了 Statistical Learning online course,它涵盖了 Intro to Statistical Learning book 的所有材料。两次接触这些内容,我想分享这本书中的 10 种统计技术,我想任何数据科学家都应该学会这些技术,以便更有效地处理大数据集。ios
在开始介绍这十种技术以前,我想先区分一下统计学习和机器学习。以前我写了机器学习中最流行的方法之一所以我很是自信我有能力去判断它们的差别:git
在统计学中,线性回归是一种经过拟合自变量和因变量之间的最优线性函数去预测目标变量的方法。当拟合每一个点获得的值和实际观测值的距离之和最小时,咱们就能够认定最佳拟合了。在选择形状时,在没有其余的位置会产生更少的偏差的状况下,说明这个形状的拟合是”最好“的。两种主要的线性回归是简单线性回归和 多元线性回归。简单线性回归 经过拟合一个最优线性关系,使用单自变量去预测一个因变量。多元线性回归则是经过拟合一个最优线性函数,使用不止一个自变量去预测因变量。github
能够选择你生活中的任意两个有关系的事物。好比,我有过去三年我每月收入和支出以及出行的数据。如今我要回答以下问题:算法
分类是一种数据挖掘技术,它为数据集合分好类,以帮助进行更准确的预测和分析。分类有时候也被称为决策树方法,是有效分析大型数据集的几种方法之一。两种脱颖而出的主要的分类技术是逻辑回归和判别分析。编程
当因变量是对立的(二元)时,逻辑回归是适当的回归分析方法。和全部的回归分析相似,逻辑回归是一种预测分析。逻辑回归用于描述数据,并解释一个因变量与一个或多个定类、定序、定距或定比自变量之间的关系。逻辑回归能够校验的问题有:bootstrap
在判别分析中,两个或者更多的组或群或整体是已知先验的,而根据分析的特征,1个或者更多的观测值被划分进入已知的某一类簇中。判别分析模拟了预测因子 X 在每一个响应类别中的分布,而后使用贝叶斯定理将其转换为给定 X 值的响应类别的几率估计值。这些模型能够是线性的,也能够是二次的 。后端
重采样是指从原始数据样本中提取重复样本的方法。它是一种统计推断的非参数方法。换言之,重采样方法不涉及使用通用分布表来计算近似的 p 的几率值。
重采样基于实际数据生成一个惟一的抽样分布。它使用实验方法而非分析方法来生成这个惟一的抽样分布。它基于研究员所研究的全部可能结果的无偏样原本产生无偏估计。为了理解重采样的概念,你应该了解自举法(也翻译成拔靴法,译者注)和交叉验证:
一般,对于线性模型来讲,普通最小二乘法是拟合数据时考虑的主要标准。下面三个方法能够替代它而且可以提供更好的预测准确率和拟合线性模型的可解释性。
此方法肯定被咱们认为与响应相关的 p 个预测因子的一个子集。而后咱们利用子集特征的最小二乘来拟合模型。
这种方法适合包含全部 p 个预测因子的模型。然而,估计系数将根据最小二乘的估值向零收敛。这种收缩也称之为正则化。它旨在减小方差以防止模型的过拟合。因为咱们使用不一样的收敛方法,有些系数将被估计为零。所以这种方法也能执行变量的选择,将变量收敛为零最想见的技术就是岭回归和 lasso 回归。
降维算法将 p + 1 个系数的问题简化为 M + 1 个系数的问题,其中 M < p。算法执行包括计算变量的 M 个不一样线性组合或投影(projection)。而后将这 M 个投影做为预测因子,并经过最小二乘法来拟合一个线性回归模型。两个处理方法是主成分回归(principal component regression) 和 偏最小二乘法(partial least squares)。
在统计学中,非线性回归属于一种观测数据使用模型参数的非线性组合的函数(依赖于一个或多个独立变量)建模的回归分析形式。其使用逐次逼近法拟合数据。下方是几种处理非线性模型的重要技术:
基于树的方法能够用于回归和分类问题,包括将预测因子的空间分层或分割成几个简单区域。因为用于预测器空间的分离规则集合能够总结为一个树,这类方法被称为决策树方法。如下的方法是几种不一样的树,它们能够组合起来输出单个一致的预测。
支持向量机(SVM)是一种经常使用的监督学习分类技术。通俗地说,它用于寻找对两类点集作出最佳分离的超平面(hyperplane,在 2D 空间中是线,在 3D 空间中是面,在高维空间中是超平面。更正式的说法是,一个超平面是一个 n 维空间的 n-1 维子空间)。而支持向量机是保留最大的间隔的分离超平面,所以本质上,它是一个约束最优化问题,其中支持向量机的间隔在约束下被最大化,从而完美地对数据进行分类(硬间隔分类器)。
"支持"超平面的数据点被称为"支持向量"。在上图中,填充蓝色圆和两个填充方块就是支持向量。在两类数据不是线性可分的例子中,数据点将被投射到一个更高维空间中,使得数据变得线性可分。包含多个类别的数据点的问题能够分解成多个"一对一"(one-versus-one)或"一对剩余"(one-versus-rest)的二分类问题。
目前为止,咱们都只讨论过监督学习技术,其中数据分类都是已知的,且提供给算法的经验都是实体和其分类的关系。当数据的分类是未知的时候,就须要使用另外一种技术了。它们被称为无监督的,由于它们须要本身去发现数据中的模式。聚类(clustring)是无监督学习的一种,其中数据将根据相关性被分为多个集群。下方是几种最经常使用的无监督学习算法:
这是一些基本统计技术的基本运用,它们能够帮助数据科学项目经理和/或执行人员更好地了解他们的数据科学团队的内部运行状况。事实上,一些数据科学团队纯粹是经过 python 和 R 语言库运行算法。他们中的大多数甚至不须要考虑基础的数学。可是,可以理解统计分析的基础知识能够为您的团队提供更好的方法。洞察最小的部分可使操做和抽象更容易。但愿本基础数据科学统计指南能给您一个很好的理解!
**你能够从[个人 Github 源代码]得到全部讲座的幻灯片和 RStudio 课程(github.com/khanhnamle1…
若是发现译文存在错误或其余须要改进的地方,欢迎到 掘金翻译计划 对译文进行修改并 PR,也可得到相应奖励积分。文章开头的 本文永久连接 即为本文在 GitHub 上的 MarkDown 连接。
掘金翻译计划 是一个翻译优质互联网技术文章的社区,文章来源为 掘金 上的英文分享文章。内容覆盖 Android、iOS、前端、后端、区块链、产品、设计、人工智能等领域,想要查看更多优质译文请持续关注 掘金翻译计划、官方微博、知乎专栏。