1.0 机器学习概念介绍

机器学习的基本概念

数据

数据集

数据的总体叫作数据集   ( data set )算法

样本

每一行数据被称为一个样本   ( sample )机器学习

标记   

最后一列, 称为标记   ( label )学习

特征

表中的每一个列都是一个特征, 用特征向量来表示一个特征值优化

特征空间

特征进行数据表示后的范围空间spa

此图中的形式是一个二维的特征空间, 高维的话则基于低维进行推导便可3d

抽象特征

不少的特征并不必定非要具体, 好比图像识别像素点blog

机器学习的基本任务

分类任务

二分类

多分类

 

多标签分类

回归任务

 

 

 什么是机器学习

机器学习方法的分类

监督学习

给机器的训练数据拥有 "标记" 或者 "答案"数学

监督学习的应用场景

监督学习的算法

非监督学习

给机器的训练数据没有 "标记" 或者 "答案"效率

聚类分析

对没有 "标记" 的数据进行分类 - 聚类分析监控

降维处理

特征提取  

信用卡的评级和人的身高如何关系?

特征压缩  

PCA, 以下图这种二维的特征表示呈现出一种一维的线性表现, 这时可进行特征压缩

在尽可能少损失特征信息的状况下, 将高维的特征向量压缩成低纬的特征向量, 大大提升效率并且不会下降质量

方即可视化

 高维有点很差处理, 降维天然容易理解

异常检测

以下图中的两个红点就很不适合总体的状态, 所以检测出后进行干预便可

 

半监督学习

给机器的训练数据一部分有 "标记" 或者 "答案", 另外一部分没有

在现实中更常见, 各类缘由都会产生标记的缺失

加强学习

 

 无人驾驶, 机器人等应用场景

机器学习方法的其余分类

批量学习 - Batch Learning

进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用

不会对新的数据样原本更新本身的学习能力, 运算识别能力基于最初的效率和质量

优势  简单

如何适应环境变化 ?   - 定时从新批量学习

缺点  每次从新批量学习, 运算量巨大, 某些环境变化快的状况下, 基本无望

在线学习 - Online Learning

进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用

会对新的数据样原本更新本身的学习能力, 运算识别能力会基于最初的版本不断的自动优化提高适应当前的样本情景

优势  及时反映新的环境变化

新数据带来很差的变化 ?   - 增强对数据的监控

其余  也适用于数据量巨大, 彻底没法批量学习的环境

参数学习

假设存在某个参数, 大量的数据集都是基于此参数存在的一个具体实例

分析数据集自己就是为了得到参数

 

非参数学习

和机器学习相关的哲学思考

数据即算法?

算法为王?

如何选择机器学习算法?

 

 奥卡姆剃刀

没有免费午饭定律

其余思考

 

相关文章
相关标签/搜索