周志华机器学习读书笔记第二章(一)

模型评估与选择算法

(1)错误率+精度=1,错误率是指分类错误的样本数占样本总数的比例。机器学习

(2)偏差:学习器的实际预测输出与样本的真实输出之间的差别。性能

训练偏差:学习器在训练集上的偏差。学习

泛化偏差:在新样本上的偏差。测试

(3)过拟合和欠拟合:学习器把训练样本学的太好了,致使泛化性能降低;欠拟合,指对训练样本的通常性质还没有学好。atom

过拟合是机器学习面临的关键障碍,各种算法都必然有一些针对过拟合的措施。spa

(4)过拟合不可避免的证实:orm

(1)机器学习面临的问题一般是NP难问题blog

(2)有效的学习算法必然是在多项式时间内运行完成it

(3)若可完全避免过拟合,则经过经验偏差最小化就能得到最优解

我的理解:若是能在有限时间内将经验偏差最小化,及说明该问题是非NP问题

(5)评估方法

(1)留出法:直接将数据集划分为两个互斥的集合分别做训练集和测试集。

(1)训练/测试的划分要尽量保持数据分布的一致性。

(2)单次使用留出法获得的结果每每不够稳定可靠,在使用留出法时,通常要采用若干次随机划分、重复进行实验评估。

(2)交叉验证法:先将数据集划分为k个大小类似的互斥子集,分层采样获得,而后每次用k-1个子集的并集做为训练集,余下的那个子集做为测试集,进行k组训练测试,最终得出k个结果的均值。

(3)留一法:交叉验证法的一个特例,另k为样本数,即划分的每一个子集中都只有一个样本。

(4)自助法:前面的三种方法都改变了数据集的规模,这必然会引入一些因训练样本规模不一样而致使的估计误差。自助法是对数据集进行屡次手动抽取样本,每次取事后放回,直到取够原先的样本数。这样就会有大约36.8%(对每次采样的几率取极限,以下式)的数据没有取过,用来做为测试集。

                          

自助法在数据集小、难以划分训练测试集时颇有用。

(6)查准率和查全率:将样例根据其真实类别与学习器预测类别的组合划分为真正例、假正例、真反例、假反例,即真正例+假正例+真反例+假反例=样本数。

查准率=真正例/(真正例+假正例)

查全率=真正例/(真正例+假反例)

查准率与查全率是一对矛盾的度量,即查准率高时,查全率每每偏低;反之,亦然。

一般只有在一些简单的任务中,才可能使查全率和查准率都很高。

(7)F1度量:查准率与查全率的调和平均数,综合考虑查准率、查全率的性能度量。


                                               1/F1=(1/Precison+1/Recall)1/2

(8)为了能让咱们表达出对查准率/查全率的不一样偏好,
β>0,β大于1时,查全率更有影响;β小于1时,查准率更有影响。

1/Fβ=1/(1+β2)(1/Precision+β2/Recall)

(9)多个二分类混淆矩阵时,咱们能够有两种办法:

(1)先在各个混淆矩阵上分别计算出查准率和查全率,在计算平均值,获得宏观值

(2)先将各个混淆矩阵的对应元素平均,再进行微观计算。


β
β
β