机器学习绪论
基本术语
基础
- 模型:泛指从数据中学得的结果
- 数据集 data set:一组记录的集合
- 示例 instance/样本 sample:关于一个事件或对象的描述
- 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项
- 属性值 attribute value:属性上的取值
- 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间
- 特征向量 feature vector:每一个示例在空间中的坐标向量
- \(D={\{\vec{x_1},\vec{x_2},\cdots,\vec{x_m}\}}\):包含 m 个样本的数据集
- \(\vec{x_i}=(x_{i1};x_{i2};\cdots;x_{id})\):\(d\) 维样本空间 \({\chi}\) 中的一个向量,\({\vec{x_i}}{\in}{\chi}\)
- 输入空间:一个样本全部特征的集合
- \(x_{ij}\):\(\vec{x_i}\)在第 \(j\) 个属性上的取值,后期可能会用 \(\vec{X}\) 展现
- \(d\):\({\vec{x_i}}\) 的“维数 dimensionlity”
- 学习 learning/训练 training:从数据中学得模型的过程
- 训练数据 training data:训练过程当中使用的数据
- 训练样本 training sample:训练中的每一个样本
- 假设 hypothesis:学习模型对应了关于数据某种潜在的规律
- 真相/真实 ground-truth:潜在规律自身
- 学习器 learner:模型
- 预测 prediction:得到训练样本的“结果”信息
- 标记 label:样本结果的信息
- 样例 example:拥有标记信息的样本
- \((x_i,y_i)\):第 \(i\) 个样例,\(y_i\in{\vec{Y}}\) 是示例 \(x_i\) 的标记,\(\vec{Y}\) 是全部标记的集合
- 标记空间 label space/输出空间:全部标记的集合
监督学习 supervised learning
分类 classification:预测结果是离散值的学习任务算法
回归 regression:预测结果是连续值的学习任务机器学习
二分类 binary calssification:涉及两个类别ide
正类 positive class 和 反类 negative class:“二分类”中的两个类别性能
多分类 multi-class classification:涉及多个类别学习
预测任务:对训练集 \(\{(\vec{x_1},y1),(\vec{x_2},y_2),\cdots,(\vec{x_m},y_m)\}\) 进行学习,创建一个从输入空间 \(\vec{X}\) 到 输出空间 \(\vec{Y}\) 的映射 \(f:\vec{X}\rightarrow\vec{Y}\),一般令 \(\vec{Y}=\{-1,+1\}\) 或 \(\{0,1\}\);对于多分类任务,\(|\vec{Y}|\gt2\);对回归任务,\(|\vec{Y}|=R\),\(R\) 为实数集测试
测试 testing:对学得模型进行预测的过程spa
测试样本 testing sample:被预测的样本,例如学得 \(f\) 后,对测试例 \(\vec{x}\) ,可获得其预测标记 \(y=f(x)\)对象
无监督学习 unsupervised learning
- 聚类 clustering:将训练集中的西瓜分红若干组
- 簇 cluster:“聚类”中的每一组。每一簇均可能对应一些潜在的概念划分而且这些概念咱们事先是不知道的
进阶
- 泛化 generalization:学得模型适用于新样本的能力
- 分布 distribution \({{D}}\) :一般假设样本空间中全体服从一个未知“分布”
- 独立同分布 independent and identically distributed \(i.i.d.\):每一个样本都是独立地从这个分布上采样得到的
假设空间
- 科学推理的两大基本手段:概括 induction 与 演绎 deduction
- 概括:从特殊到通常的“泛化 generalization”过程,即从具体的事实归结出通常性规律
- 演绎:从通常到特殊的“特化 specialization”过程,即从基础原理推演出具体情况
- 概括学习 inductive learning:从样例中学习
- 广义概括学习:至关于从样例中学习
- 狭义概括学习:从训练数据中学得概念,所以也称为“概念学习”或“概念造成”
- 布尔概念学习:对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习
- 学习过程:在全部假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配 fit”的假设,
- 假设空间:能将训练集中的样本判断为正确的假设的集合
- 版本空间 version space:一个与训练集一致的“假设集合”
概括偏好
“版本空间”中可能有多个假设对应训练集中的某个样本,可是多个假设可能有不一样的输出,那么应该采用哪个模型(或假设)呢?事件
- 概括偏好 inductive bias:算法在学习过程当中对某种类型假设的偏好
- 若是没有概括偏好:学得模型预测时时而告诉咱们它是好的,时而告诉咱们它是很差的
- 奥卡姆剃刀 Ocam’s razor:如有多个假设与观察一致,则选最简单的那个
- “没有免费的午饭”定理 No Free Lunch Theorem:不管学习算法 \(a\) 多聪明、学习算法 \(b\) 多笨拙,它们的指望性能都会相同。
- NFL 定理前提:全部“问题”出现的机会相同、或全部问题同等重要
- NFL 定理最重要的寓意:空泛的谈“什么学习算法更好毫无心义”,由于若考虑全部潜在的问题,则学习算法都同样好
- 噪声:出现不该该出现的数据,例如相同的属性得出不同的分类
机器学习研究的主要内容:在计算机中从数据中产生“模型 model”的算法,即“学习算法 learning algorithm”。ci
计算机科学研究“算法”;机器学习研究“学习算法”。
大多数时候算法的概括偏好是否与问题自己匹配,直接决定了算法可否取得好的性能。