数据科学中的数学

时间 2019-11-06

原文原文链接

译者：王锐转载至微信公众号：方凳雅集算法

译者按: 人工智能技术一直处于高速更迭中。良好的数学基础有助于你理解人工智能技术的进化，同时也能让你更深刻地去理解并使用人工智能技术，而不是停留在AI技术的表面。另外，这样作也能够帮助你更好地去看待AI知识产权的问题。最后，职业规划方面，一旦你掌握了数据科学背后的数学基础，即可去从事更高端的AI和数据科学方面的工做。本文将带你了解数据科学背后须要的数学知识，及其在机器学习算法中的应用。微信

文章翻译自https://www.dataquest.io/blog/math-in-data-science/网络

数学就像一头章鱼，它有一只可以触及到每种学科的触手，虽然对某些学科只是轻轻拂过，但大部分学科都和数学有着不可分割的联系，数据科学属于后者。若是你想研究数据科学，你将必须先处理数学。若是你已经完成了数学学位或其余一些强调数据分析能力的学位，你可能须要知道你所学的东西是不是必要的。我知道我作到了。若是你数据结构

没有

那个背景，你可能想知道：

真的

是多少数学须要作数据科学吗？

在这篇文章中，咱们将探索研究数据科学意味着什么并讨论开始研究数据科学须要了解多少数据知识。咱们从“数据科学”的实际含义开始吧!你可能会问几十我的而后得到几十个不一样的答案！在Dataquest（译者注: 一个数据分析网站https://www.dataquest.io/），咱们将数据科学定义为使用数据和高级统计数据进行预测的学科。这是一门专业学科，专一将杂乱无章的数据变得让人能够理解（尽管数据科学家正在解决的问题因雇主而异）。统计学是咱们在该定义中提到的惟一数学学科，但数据科学也常常涉及数学中的其余领域。app

学习统计数据是一个很好的开始，但数据科学也会使用算法进行预测。这些算法称为机器学习算法，总数达数百种。至于每种类型的算法须要多么高深的数学知识则不属于本文的范围，咱们将讨论对于如下算法你须要掌握何种程度的数学知识。机器学习

朴素贝叶斯
线性回归
Logistic回归
神经网络
K-Means聚类
决策树

如今让咱们来看看学习这些算法你须要掌握哪些数学知识！函数

朴素贝叶斯的量词

它们是什么：Naïve Bayes’ 的分类器是一系列基于共同原则的算法，即特定特征的值独立于任何其余特征的值。它们容许咱们根据咱们对相关事件的了解状况预测事件发生的几率。该名称来自贝叶斯定理，能够用数学方式编写以下：学习

这里 A 和 B 是独立事件而且 P(A|B) 不能等于0.这看起来很复杂，但咱们能够把它分解便于理解的三部分测试

P（A|B）是条件几率。具体来讲，是事件B发生后事件A发生的几率
P（B|A）也是一个条件几率。具体来讲，是事件A发生后事件B发生的几率
P（A）和 P（B）是A和B相互观察并相互独立的可能性。

咱们须要的数学：若是你想要了解NaïveBayes的分类器算法的表面以及贝叶斯定理的全部用法，那么几率课程就足够了。要了解几率，您能够查看咱们的几率和统计学课程。网站

线性回归

它是什么：线性回归是最基本的回归类型。它容许咱们理解两个连续变量之间的关系。在简单线性回归的状况下，这意味着获取一组数据点并绘制可用于预测将来的趋势线。线性回归是参数化机器学习的一个例子。在参数化机器学习中，训练过程最终使机器学习算法成为一种数学函数，其最接近于它在训练集中找到的模式。而后可使用该数学函数来预测将来的预期结果。在机器学习中，数学函数被称为模型。在线性回归的状况下，模型能够表示为：

这里的a1,a2,a3...表示特定于数据集的参数值， x1， x2， ...， xñ 表示咱们选择在上述模型中使用的变量， y表示目标。线性回归的目标是找到最佳描述特征列和目标列之间关系的最佳参数值。换句话说：找到最适合的数据，以即可以推倒它的趋势以预测将来结果。为了找到线性回归模型的最佳参数，咱们但愿最小化模型的残差平方和。残差一般被称为偏差，它描述了预测值和真实值之间的差别。残差平方和的公式可表示为：

（这里 ÿ^ 是目标的预测值，y是真值。）

咱们须要掌握的数学只是：若是你只想了解表面，基础统计学课程就能够了。若是你想要深刻的概念理解，你可能须要知道派生的残差平方和的公式是什么，你能够在大多数高级统计课程中学到。

Logistic回归

它是什么：Logistic回归侧重于估计在因变量为二进制的状况下发生事件的几率（即，只有两个值，0和1表示结果）。与线性回归同样，逻辑回归是参数化机器学习的一个例子。所以，这些机器学习算法的训练过程的结果是最接近训练集中的模式的数学函数。可是，在线性回归模型输出实数的状况下，逻辑回归模型输出几率值。正如线性回归算法产生的线性函数模型同样，逻辑回归算法产生的逻辑函数模型。您可能还会听到它被称为sigmoid函数，它会压缩全部值以产生0到1之间的几率结果。

那么为何sigmoid函数老是返回0到1之间的值？请记住，从代数中将任何数字提升到负指数与将该数字的倒数提升到相应的正指数相同。

咱们须要掌握的数学知识：咱们在这里讨论过指数和几率，你须要对代数和几率有充分的理解，以便对逻辑算法中发生的事情有所了解。若是你想深刻了解它的概念，我建议学习几率论以及离散数学或实际分析。

神经网络

它是什么：神经网络是机器学习模型，它们受到人类大脑中神经元结构的极大启发。这些模型是经过使用一系列激活单元（称为神经元）构建的，以预测某些结果。神经元采起一些输入，应用转换函数，并返回输出。

神经网络擅长捕获数据中的非线性关系，并帮助咱们完成音频和图像处理等任务。虽然存在许多不一样类型的神经网络（递归神经网络，前馈神经网络，递归神经网络等），但它们都依赖于转换输入以生成输出的基本概念。

在查看任何类型的神经网络时，咱们会注意到每一条线条，都将每一个圆圈链接到另外一个圆圈。在数学中，这就是所谓的图，一种由边缘链接的节点（表示为圆圈）组成的数据结构（表示为线条）。请记住，咱们在这里引用的图与线性模型或其余方程的图不一样。若是您熟悉旅行商问题，您可能熟悉图的概念。

神经网络的核心是一个系统，它接收一些数据，执行一些线性代数，而后输出一些答案。线性代数是理解神经网络中幕后发生的事情的关键。线性代数是关于线性方程的数学分支，如y=mx + b和他们经过矩阵和向量空间的表示。由于线性代数涉及经过矩阵表示线性方程，因此矩阵是你须要知道的基本思想，甚至能够开始理解神经网络的核心部分。矩阵是由数字，符号或表达式组成的矩形阵列，按行或列排列。矩阵按照行列排列，例如，如下矩阵

被称为3乘3矩阵，由于它有三行三列。

经过处理神经网络，每一个特征都表示为输入神经元。要素列的每一个数值都乘以表示输出神经元的权重向量。在数学上，该过程是这样写的：

其中X是一个m*n的矩阵，m是输入神经元的数量，n是下一层神经元的数量。咱们的权向量表示为a，a^T是a的转置(译者注：转置矩阵)，咱们把误差单位表示为b。

误差单位是经过向左或向右移动S形函数来影响神经网络输出的单位，以便对某些数据集进行更好的预测。Transpose是一个线性代数术语，它的意思是行成为列，列成为行。咱们须要取a的转置，由于第一个矩阵的列数必须等于第二个矩阵的行数。例如，若是咱们有3×3 矩阵和权重向量是一个 1×3向量，咱们不能直接将其相乘，由于三个不等于一个。可是，若是咱们采起的转置1×3 矢量，咱们获得一个 3×1 向量，咱们就能够成功地将矩阵与向量相乘。

在全部特征列和权重相乘以后，调用激活函数来肯定神经元是否被激活。激活函数有三种主要类型：RELU函数，sigmoid函数和双曲正切函数。咱们已经熟悉了sigmoid函数。RELU函数是一个简洁的函数，它接受输入x并输出相同的数字，若是它大于0; 可是，若是输入小于0，则它等于0。双曲正切函数与sigmoid函数基本相同，只是它约束-1和1之间的任何值。

咱们须要掌握的数学知识：咱们在概念方面已经讨论了不少！若是你想对这里提出的数学有基本的了解，那么离散数学课程和线性代数课程是很好的起点。为了深刻理解，我会推荐图论，矩阵论，多元微积分和实分析课程。若是您对学习线性代数基础知识感兴趣，能够开始使用咱们的线性代数机器学习课程。

K-Means聚类

它是什么：K Means Clustering算法是一种无监督机器学习，用于对未标记数据进行分类，即没有定义类别或组的数据。该算法经过在数据中查找组来工做，其中组由变量k表示。而后，它迭代数据，根据提供的功能将每一个数据点分配给k个组中的一个。K均值聚类依赖于整个算法中的距离概念，以将数据点“分配”到聚类。若是您不熟悉距离的概念，则它指的是两个给定项目之间的空间量。在数学中，任何描述集合中任意两个元素之间距离的函数称为距离函数或度量。这里有两种类型的指标：欧几里德指标和

计程车几何指标(译者注：也称曼哈顿距离)

。欧几里德指标定义以下

这里（x1，y1）和（x2，y2）是笛卡尔平面上的坐标点。虽然欧几里德度量标准已经足够，但在某些状况下它不起做用。假设你在一个大城市散步; 若是有一个巨大的建筑阻挡你的路径，说“我离目的地6.5个单位”是没有意义的。为了解决这个问题，咱们可使用

计程车

指标。

计程车几何

指标以下：

这里（x1，y1）和（x2，y2）是笛卡尔平面上的坐标点。

咱们须要掌握的数学知识：这里须要的其实比较少; 实际上你只须要知道加法和减法，并理解代数的基础知识，这样你就能够掌握距离公式。可是为了深刻了解每种指标存在的基本几何形状，我建议使用涵盖学习欧几里德和非欧几里德几何的几何类。为了深刻理解指标和度量空间的含义，我会阅读数学分析并参加Real Analysis课程。

决策树

它是什么：决策树是一种相似流程图的树结构，它使用分支方法来讲明决策的每一个可能结果。树中的每一个节点表明对特定变量的测试 - 每一个分支都是该测试的结果。决策树依赖于一种称为信息理论的理论来肯定它们是如何构建的。在信息理论中，人们对某个主题的了解越多，人们能够知道的新信息就越少。信息理论的关键措施之一被称为熵。熵是量化给定变量的不肯定性量的度量。熵能够这样写：

在上面的等式中， P（X）是数据集中发生特征的几率。应该注意，任何基数b均可以用于对数; 可是，常见的值是2，e(2.71)和10。您可能已经注意到看起来像“S”的花式符号。这是求和符号，它意味着能够连续添加求和以外的任何函数。添加的次数取决于求和的下限和上限。在计算熵以后，咱们能够经过使用信息增益开始构造决策树，它告诉哪一个分裂将最大程度地减小熵。信息获取的公式以下：

信息增益能够衡量某我的能够得到多少“信息”。在决策树的状况下，咱们能够计算数据集中每一个列的信息增益，以便找到哪一个列将为咱们提供最大的信息增益，而后在该列上进行拆分。

咱们须要的数学：基本的代数和几率是你真正须要了解决策树的基础。若是你想要对几率和对数进行深刻的概念性理解，我会推荐几率论和代数课程。

建议

若是你尚未参加工做，我强烈建议你学习一些纯数学和应用数学课程。你可能会畏惧他们，可是当您遇到这些算法并知道如何最好地去应用它们时，您能够学到更多有用的知识。若是您目前没有上学，我建议您前往最近的书店，阅读本文中突出显示的主题。若是您能找到涉及几率论，统计学和线性代数的书籍，我强烈建议您选择深刻学习这些主题的书籍，以真正了解所描述的机器算法幕后发生的事情。