https://editor.csdn.net/md?articleId=106864771
—————————————————————————————————html
对学习器的泛化性能进行评估,不只须要有效可行的实验估计方法,还需 要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure).web
数据集:
学习器:f
回归任务最经常使用的性能度量是"均方偏差" (mean squared error)。
对于通常的数据分布D以及几率密度函数p(.),均方偏差为:
app
错误率是分类错误的样本数占样本总数的比例。 精度则是分类正确的样本数占样本总数的比例。
对于通常的数据分布D以及几率密度函数p(.),其表示为:
机器学习
对于二分类问题,真实类别和机器预测类别的组合以下:
其查准率和查全率为:
以查准率为纵轴、查全率为横轴做图,就获得 了查准率-查全率曲线,简称 " P-R曲线"显示该曲线的图称为 “P-R图”。以下图所示:
平衡点:查准率=查全率
BEP 仍是过于简化了些,更经常使用的是
度量以及
:
其中
度量了查全率对查准率的相对重要性。
时退化为标准的 F1;
时查全率有更大影响;
时查准率有更大影响.svg
ROC 全称是"受试者工做特征" (Receiver Operating Characteristic) 曲
线,咱们根据学习器的预 测结果对样例进行排序,按此顺序逐个把样本做为正例进行预测,每次计算 出两个重要量的值,分别以它们为横、纵坐标做图。ROC 曲线的纵轴是"真正 例率" (True Positive Rate,简称 TPR),横轴是"假正例率" (False Positive Rate,简称 FPR)。
AUC (Area Under ROC Curve)是ROC 曲线下的面积,AUC 可经过对 ROC 曲线下各部分的面积求和而得。离散状况下,AUC 可估算为:
排序"损失" (loss)为:
函数
“代价敏感” (cost-sensitive)错误率是指在非均等代价状况下,咱们所但愿的再也不是简单地最小化错误次 数,而是但愿最小化"整体代价" (total cost)。
在非均等代价下,ROC 曲线不能直接反映出学习器的指望整体代价,而"代价曲线" (cost curve) 则可达到该目的。
其中横轴是取值为 [0 ,1] 的正例几率代价,纵轴是取值为 [0 ,1] 的归一化代价,p 是样例为正例的几率。
性能
[1] 周志华. 机器学习 : = Machine learning[M]. 清华大学出版社, 2016.学习