小白机器学习基础算法学习必经之路（上）

时间 2019-11-08

标签机器学习基础算法必经之路繁體版

原文原文链接

常见的机器学习算法html

如下是最经常使用的机器学习算法，大部分数据问题均可以经过它们解决：算法

1.线性回归 (Linear Regression)dom

2.逻辑回归 (Logistic Regression)机器学习

3.决策树 (Decision Tree)函数

4.支持向量机（SVM）学习

5.朴素贝叶斯 (Naive Bayes)测试

6.K邻近算法（KNN）优化

7.K-均值算法（K-means）spa

8.随机森林 (Random Forest)rest

9.下降维度算法（DimensionalityReduction Algorithms）

10.GradientBoost和Adaboost算法

线性回归 (Linear Regression)

线性回归是利用数理统计中回归分析，来肯定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分普遍。其表达形式为y = w'x+e，e为偏差服从均值为0的正态分布。

最小二乘法是一种计算线性回归的方法。你能够把线性回归当作在一系列的点中画一条合适的直线的任务。有不少种方法能够实现这个，“最小二乘法”是这样作的 —你画一条线，而后为每一个数据点测量点与线之间的垂直距离，并将这些所有相加，最终获得的拟合线将在这个相加的总距离上尽量最小。

逻辑回归 (Logistic Regression) 逻辑回归是一种强大的统计方法，它能建模出一个二项结果与一个（或多个）解释变量。它经过估算使用逻辑运算的几率，测量分类依赖变量和一个（或多个）**的变量之间的关系，这是累积的逻辑分布状况。

总的来讲，逻辑回归能够用于如下几个真实应用场景：

信用评分
测量营销活动的成功率
预测某一产品的收入
特定某一天是否会发生地震

决策树 (Decision Tree)

是一种基本的分类与回归方法，此处主要讨论分类的决策树。在分类问题中，表示基于特征对实例进行分类的过程，能够认为是if-then的集合，也能够认为是定义在特征空间与类空间上的条件几率分布。

决策树一般有三个步骤：特征选择、决策树的生成、决策树的修剪。

用决策树分类：从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点，此时每一个子节点对应着该特征的一个取值，如此递归的对实例进行测试并分配，直到到达叶节点，最后将实例分到叶节点的类中。

下图为决策树示意图，圆点——内部节点，方框——叶节点

决策树学习的目标：根据给定的训练数据集构建一个决策树模型，使它可以对实例进行正确的分类。
决策树学习的本质：从训练集中概括出一组分类规则，或者说是由训练数据集估计条件几率模型。
决策树学习的损失函数：正则化的极大似然函数
决策树学习的测试：最小化损失函数
决策树学习的目标：在损失函数的意义下，选择最优决策树的问题。

决策树原理和问答猜想结果游戏类似，根据一系列数据，而后给出游戏的答案。

上图为一个决策树流程图，正方形表明判断模块，椭圆表明终止模块，表示已经得出结论，能够终止运行，左右箭头叫作分支。决策树的优点在于数据形式很是容易理解。

支持向量机（SVM）

SVM有不少实现，可是本章只关注其中最流行的一种实现，即序列最小优化，在此以后，将介绍如何使用一种称为核函数（kernel)的方式将SVM扩展到更多数据集上。

支持向量机是一种二类分类算法，假设一个平面能够将全部的样本分为两类，位于正侧的样本为一类，值为+1，而位于负一侧的样本为另一类，值为-1。虽然SVM自己是一个二类分类器，若要解决多类问题，须要修改SVM。

咱们说分类，不只仅是将不一样的类别样本分隔开，还要以比较大的置信度来分隔这些样本，这样才能使绝大部分样本被分开。好比，咱们想经过一个平面将两个类别的样本分开，若是这些样本是线性可分（或者近视线性可分），那么这样的平面有不少，可是若是咱们加上要以最大的置信度来将这些样本分开，那么这样的平面只有一条。

1.几何间隔

几何间隔的概念，简单理解就是样本点到分隔平面的距离

2 间隔最大化

想要间隔最大化，咱们必须找到距离分隔平面最近的点，而且使得距离平面最近的点尽量的距离平面最远，这样，每个样本就都可以以比较大的置信度被分隔开算法的分类预测能力也就越好。显然，SVM算法的关键所在，就是找到使得间隔最大化的分隔超平面（若是特征是高维度的状况，咱们称这样的平面为超平面）。简言之：最大化支持向量到超平面距离

优势：泛化错误率低，计算开销不大，结果易解释。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。适用数据类型：数值型和标称型数据。

朴素贝叶斯 (Naive Bayes)

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是由于这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的几率，哪一个最大，就认为此待分类项属于哪一个类别。

优势：在数据较少的状况下仍然有效，能够处理多类别问题。缺点：对于输入数据的准备方式较为敏感。适用数据类型：标称型数据

它的现实使用例子有：

将一封电子邮件标记（或者不标记）为垃圾邮件

将一篇新的文章归类到科技、**或者运动

检查一段文本表达的是积极情绪仍是消极情绪

脸部识别软件