机器学习 (一)------分类

机器学习 (一)------分类

机器学习分类

机器学习分为监督学习和无监督学习两类。算法

监督学习是指在有标记的样本上创建机器学习的模型(这类算法知道预测什么,即目标变量的分类信息)。网络

无监督学习偏偏相反,是指没有标记的数据上创建学习模型。机器学习

主要任务:

分类:主要任务是将实例数据划分到合适的分类中。学习

回归:例如数据拟合曲线(根据给定数据点的最优拟合曲线),主要用于预测数值型数据。测试

如何选择合适的算法:

从上表中选择实际可用的算法,要考虑如下两个方面的问题:spa

一、使用机器学习算法的目的,想要算法完成何种任务;递归

二、须要分析和收集的数据是什么;事件

主要了解数据的如下特征:特征值是离散型变量仍是连续型变量,特征值是否存在缺失值,何种缘由形成的缺失,数据中是否存在异常值,某个特征发生的频率如何等。文档

使用算法建立应用程序的步骤:

(1)收集数据(网络爬虫抽取、从RRS反馈或者API中获得,设备发送的实测数据);数学

(2)准备输入数据(确保数据格式符合要求);

(3)分析输入数据(人工分析之前获得的数据);

(4)训练算法(将前面获得的格式化数据输入到算法,从中抽取知识或信息;无监督学习没有这一步);

(5)测试算法(使用上一部机器学习获得的知识信息);

(6)使用算法(将机器学习算法转换为应用程序)。

1、K-近邻算法

一、算法概述

简单地说,k-近邻算法采用测量不一样特征值之间的距离方法进行分类。

二、算法优缺点

优势:精度高,对异常值不敏感、无数据输入设定;

缺点:计算复杂度高、空间复杂度高;

使用数据范围:数值型和标称型。

三、算法工做原理

存在一个样本数据集合,也称做训练样本集,而且样本集中每一个数据都存在标签,即咱们知道样本集中每个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每一个特征与样本集中数据对应的特征进行比较,而后算法提取样本集中特征最类似数据(最近邻)的分类标签。通常来讲,咱们只选择样本数据集中前k个最类似的数据,这就是k-近邻算法中K的出处,一般k是不大于20的整数。最后,选择k个最类似数据中出现次数最多的分类,做为新数据的分类。

2、决策树
一、算法概述

决策树是一种树形结构,其中每一个内部节点表示一个属性上的测试,每一个分支表明一个测试输出,每一个叶节点表明一种类别。决策树算法可以读取数据集合,他的一个重要任务是为了理解数据中所蕴含的知识信息,所以决策树可使用不熟悉的数据集合,并从中提取出一系列规则,这些机器根据数据集建立规则的过程,就是机器学习的过程。

二、算法优缺点

优势:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,能够处理不相关特征数据;

缺点:可能会产生过渡匹配问题;

适用数据类型:数值型和标称型。

三、决策树的构造

首先,讨论数学上如何适用信息论划分数据集;

而后,编写代码将理论应用到具体的数据集上;

最后,编写代码构建决策树。

四、信息增益

划分数据的大原则是:将无序的数据变得更加有序。

方法:使用信息论量化度量信息的内容。

信息增益:指在划分数据集以前以后信息发生的变化。

熵:指信息的指望值。

五、划分数据集

度量划分数据集的熵,以便判断按照哪一个特征划分数据集。对每一个特征划分数据集的结果计算一次信息熵,而后判断哪一个特征划分数据集是最好的划分方式。

六、递归构建决策树

从数据集构造决策树算法所须要的子功能模块,其工做原理以下:获得原始数据集,而后基于最好的属性值划分数据集,因为特征值可能多于两个,一次可能存在大于两个分支的数据集划分。第一次划分以后,数据将被向下传递到树分支的下一个节点,在这个节点上,咱们再次划分数据。

递归结束的条件是:程序遍历完全部的划分数据集的属性,或者每一个分支下的全部实例都具备相同的分类。若是全部的实例具备相同的分类,则获得一个叶子结点或者终止块。任何到达叶子结点的数据必然属于叶子结点的分类。

3、基于几率论的分类方法:朴素贝叶斯

一、概念

简单的几率分类器开始,‘朴素’是由于整个形式化过程只作最原始、最简单的假设。

朴素贝叶斯分类器的两个假设:独立性假设;每一个特征同等重要。

二、算法优缺点

优势:在数据较少的状况下仍然有效,能够处理多类别问题;

缺点:对于输入数据的准备方式较为敏感;

适用数据类型:标称型数据。

三、条件几率

某一事件发生的条件下另外的事件发生的几率。

四、使用条件几率进行分类

知足条件一类,不知足条件一类。

五、使用朴素贝叶斯进行文档分类

观察文档中出现的词,并把没歌词的出现或者不出现做为一个特征,是用于文档分类的经常使用算法。

总结

对于分类而言,使用几率有时要比使用硬规则更为有效。贝叶斯几率及贝叶斯准则提供了一种利用已知值来估计位置几率的有效方法。

相关文章
相关标签/搜索