机器学习笔记一

一、基本术语
1、数据集:一组记录的集合,其中每条记录是关于一个事件或对象的描述,称为一个示例或样本,一个示例也称为一个特征向量。
2、属性/特征:反映事物或对象在某方面的表现和性质的事项。
3、属性值:属性上的取值。
4、训练集:在数据中学得模型的过程中使用的数据。
5、测试集:学得模型后,使用其进行预测的数据(测试样本尽量不在训练集中出现)。
6、标记:关于示例结果的信息。
7、样例:拥有标记信息的示例。
8、分类:预测的为离散值;如,“好瓜”“坏瓜”(只涉及两个类别的为“二分类”任务,一个为“正类”,一个为“反类”;涉及多个类别时,则称为“多分类”任务)。
9、回归:预测的为连续值;例如,西瓜的成熟度(0.95 0.37…)。
10、聚类:将训练集中的样本分成若干组。
11、监督学习:训练数据有标记信息。(分类和回归)
12、无监督学习:训练数据无标记信息。(聚类)
13、“泛化”能力:学得模型适应新样本的能力。
14、归纳:从特殊到一般的“泛化”过程。
15、演绎:从一般到特殊的“特化”过程。
16、版本空间:与训练集一致的“假设集合”。
17、归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。(任何一个有效的机器学习算法都有)
18、训练误差/经验误差:学习器在训练集上的误差。
19、泛化误差:在新样本上的误差。
20、过拟合/过配:学习能力过于强大,以至于把训练样本所包含的不一般的特性都学到了(难克服,无法彻底避免)。
21、欠拟合/欠配:学习能力地下导致对训练样本的一般性质未学好(容易克服)。
二、模拟评估和选择1、评估方法:留出法 https://blog.csdn.net/qq_35083093/article/details/77881677
交叉验证法
https://blog.csdn.net/qq_35083093/article/details/77881763https://blog.csdn.net/u010451580/article/details/51373081

自助法 https://blog.csdn.net/zrh_CSDN/article/details/80300220
2、验证集:模型评估和选择中用于评估测试的数据集。例如,在研究对比不同算法的泛化性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参。
3、性能度量:衡量模型泛化能力的评价标准(错误率、精度、查准率、查全率、F1:表达对查准率和查全率的不同偏好)。https://www.jianshu.com/p/ba52a355876b
ROC曲线:评价学习器的优劣AUC:ROC下的面积总体代价FNR(FPR,TPR) https://www.jianshu.com/p/376030457a93
4、比较检验: https://www.jianshu.com/p/c734d415efa8
5、McNemar检验 McNemar检验适用于二分类问题,用于某些 2 × 2 表格的配对样本。通过联列,可以获得学习器A和B的分类结果的差别。下表即为两分类器分类差别列联表,e为样本数。


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、线性模型
(一)线性回归:
1、性能度量:均方误差,亦称平方损失。
2、理论模型:
在这里插入图片描述
3、数据和估计
在这里插入图片描述
4、古典假设
在这里插入图片描述
5、求解方法
在这里插入图片描述
6、最小二乘法
在这里插入图片描述 7、分类:0/1问题,预测结果为0或1; 回归:预测结果不是类别而是一个具体的值。