数据的总体叫作数据集 ( data set )算法
每一行数据被称为一个样本 ( sample )机器学习
最后一列, 称为标记 ( label )学习
表中的每一个列都是一个特征, 用特征向量来表示一个特征值优化
特征进行数据表示后的范围空间spa
此图中的形式是一个二维的特征空间, 高维的话则基于低维进行推导便可3d
不少的特征并不必定非要具体, 好比图像识别像素点blog
给机器的训练数据拥有 "标记" 或者 "答案"数学
给机器的训练数据没有 "标记" 或者 "答案"效率
对没有 "标记" 的数据进行分类 - 聚类分析监控
特征提取
信用卡的评级和人的身高如何关系?
特征压缩
PCA, 以下图这种二维的特征表示呈现出一种一维的线性表现, 这时可进行特征压缩
在尽可能少损失特征信息的状况下, 将高维的特征向量压缩成低纬的特征向量, 大大提升效率并且不会下降质量
方即可视化
高维有点很差处理, 降维天然容易理解
异常检测
以下图中的两个红点就很不适合总体的状态, 所以检测出后进行干预便可
给机器的训练数据一部分有 "标记" 或者 "答案", 另外一部分没有
在现实中更常见, 各类缘由都会产生标记的缺失
无人驾驶, 机器人等应用场景
进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用
不会对新的数据样原本更新本身的学习能力, 运算识别能力基于最初的效率和质量
优势 简单
如何适应环境变化 ? - 定时从新批量学习
缺点 每次从新批量学习, 运算量巨大, 某些环境变化快的状况下, 基本无望
进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用
会对新的数据样原本更新本身的学习能力, 运算识别能力会基于最初的版本不断的自动优化提高适应当前的样本情景
优势 及时反映新的环境变化
新数据带来很差的变化 ? - 增强对数据的监控
其余 也适用于数据量巨大, 彻底没法批量学习的环境
假设存在某个参数, 大量的数据集都是基于此参数存在的一个具体实例
分析数据集自己就是为了得到参数