google机器学习笔记(三)

  • 逻辑回归 Logistic Regression
    进行预测,逻辑回归⽣成⼀个0到1之间的概率值,表示某邮件是垃圾邮件的概率是多少。(二元分类法)
    在这里插入图片描述
    在这里插入图片描述
  • 线性逻辑回归
    高效,超快的训练速度和较短的预测时间
    在这里插入图片描述
  • 评估标准:精确率Precision召回率Recall
    以《狼来了》的故事为例,将结果(狼来了)和预测(做出警告)进行交错,有以下四种情况
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    分类阈值(判定阈值):高于一律认为是,低于认为不是。
    选择高分类阈值,会减少FN,提高精确率(但凡说,一定对)。阈值越高,依据越多,限定条件越多。

还有一个概念:准确率
在这里插入图片描述
再以垃圾邮件分类为例:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • ROC曲线:接收者操作特征曲线
    用于衡量模型在所有可能阈值情况下的结果,代入不同阈值获得不同曲线
    AUC(ROC线下面积):当随机选择一个正类别样本一个负类别样本,模型以正确顺序排列他们的概率。
    如:线下面积(求积分)结果为0.9,则表示得出正确配比结果的概率为0.9
    在这里插入图片描述