机器学习2.0基础

1.模型的评估指标

  • Accuracy:准确率
    在这里插入图片描述
确诊疾病 确诊健康
疾病 / 真阳性 假阳性
健康 / 真阴性 假阴性

阳性:正确的
阴性:错误的

  • 两个指标
    精度:在所有模型诊断的阳性数据中,有多少真阳性。(诊断为疾病的有多少生病1000/1800)
    召回率:所有真正阳性数据中,有多少阳性被识别出来了。(生病患者有多少被诊断为生病 1000/1200)
  • F1得分
    一方得分越低,F1得分越低,确实有很好的衡量作用。
    F1是把精度和召回率同等重要程度看的,两者重要性是一样的在这里插入图片描述
  • F-β得分
    在这里插入图片描述
  • ROC曲线
    roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。
    横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率)
    在这里插入图片描述
    ​一个模型越好(数据越容易被完美分隔),他的ROC曲线下的面积就越接近1,
    在这里插入图片描述 称TPR为真正例率,表示实际为正例的样本中预测为正例的比例;称FPR为假正例率,表示实际为反例的样本中预测为正例的比例。ROC空间就是以FPR作为横轴,以TPR作为纵轴的二维空间。这样对于上面的混淆矩阵,我们计算出的(FPR,TPR)对应ROC空间上一个点,这个点表示的就是对应分类器的性能。 ROC空间中有四个特殊点:(0,0)表示实际为正例的样本全部预测错误,而实际为反例的样本全部预测正确;(0,1)表示所有样本全部预测错误;(1,0)表示所有样本全部预测正确;(1,1)表示实际为正例的样本全部预测正确,实际为反例的样本全部预测错误。在ROC空间中越靠近左上角的分类器,性能越好。