机器学习算法简介

时间 2019-11-12

标签机器学习算法简介繁體版

原文原文链接

首先，机器学习算法的分类：
一、监督式学习
工做机制：用有正确答案的数据来训练算法进行机器学习。
表明算法：回归、决策树、随机森林、K – 近邻算法、逻辑回归，支持向量机等。
二、非监督式学习
工做机制：训练数据没有标签或者答案，目的是找出数据内部的关联和模式，趋势。
表明算法：关联算法和聚类算法。
3. 半监督学习
工做机制：结合（少许的）标定训练数据和（大量的）未标定数据来进行学习
表明算法： GANs(生成式对抗网络算法)
四、强化学习
工做机制：给予算法一个不断试错，并具备奖励机制的场景，最终使算法找到最佳路径或者策略。
表明算法：马尔可夫决策过程，AlphaGo+Zero, 蒙特卡洛算法算法

详细介绍（一点点，之后再修改）：bootstrap

一、回归网络

什么叫线性回归？dom

线性回归问题就是试图学到一个线性模型尽量准确地预测新样本的输出值
　　例如：经过历年的人口数据预测2017年人口数量。
在这类问题中，每每咱们会先获得一系列的有标记数据，例如：2000–>13亿…2016–>15亿，这时输入的属性只有一个，即年份；也有输入多属性的情形，假设咱们预测一我的的收入，这时输入的属性值就不止一个了，例如：（学历，年龄，性别，颜值，身高，体重）–>15k。机器学习

咱们要作到的是让预测值尽可能逼近真实值，作到偏差最小，而均方偏差就是表达这种偏差的一种，因此咱们要求解多元线性回归模型，就是要求解使均方偏差最小化时所对应的参数：函数

其中w*为模型对应的解，即便得均方偏差函数最小化时的权重向量。
能够用最小二乘法对模型的参数进行估计，具体作法是：损失函数对须要求解的参数进行求导，而且令其导数为0，求得相应的参数。学习

二、决策树(Decision Tree)spa

决策树概括的基本算法是贪心算法，它以自顶向下递归各个击破的方式构造决策树。
　　贪心算法：在每一步选择中都采起在当前状态下最好/优的选择。
在其生成过程当中，分割方法即属性选择度量是关键。经过属性选择度量，选择出最好的将样本分类的属性。
根据分割方法的不一样，决策树能够分为两类：
　　基于信息论的方法（较有表明性的是ID三、C4.5算法等）
　　最小GINI指标方法（经常使用的有CART、SLIQ及SPRINT算法等）。rest

三、随机森林Random Forestorm

　　在机器学习中，随机森林是一个包含多个决策树的分类器，而且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造决策树的集合。

根据下列算法而建造每棵树^[1] ：

用N来表示训练用例（样本）的个数，M表示特征数目。
输入特征数目m，用于肯定决策树上一个节点的决策结果；其中m应远小于M
从N个训练用例（样本）中以有放回抽样的方式，取样N次，造成一个训练集（即bootstrap取样），并用未抽到的用例（样本）做预测，评估其偏差。
对于每个节点，随机选择m个特征，决策树上每一个节点的决定都是基于这些特征肯定的。根据这m个特征，计算其最佳的分裂方式。
每棵树都会完整成长而不会剪枝，这有可能在建完一棵正常树状分类器后会被采用）。