分类预测算法评价(初识)

分类于预测算法评价算法

  • 分类与预测模型对训练集进行预测而得出得准确率并不能很好得反映预测模型将来得性能,为了有效判断一个预测模型得性能表现,须要一组没有参与预测模型创建得数据集并在该数据集上评价预测模型得准确率,这组独立耳朵数据集叫作测试集,模型预测效果评价,一般用相对绝对偏差,平均绝对偏差,均方偏差,均方根偏差来衡量.
    1. 绝对偏差与相对偏差
      • 设Y表示实际值, Ý表示预测值, 则称E为绝对偏差,计算公式以下:
        • Ε = Y - Ý
      • e为相对偏差, 计算公式以下
        • e = (Y - Ý) / Y
      • 有时也能够用偏差百分数来表示
        • e = (Y - Ý) / Y * 100%
      • 这是一种直观得偏差表示方法
    2. 平均绝对偏差
      • 平均绝对偏差定义以下:
        • MAE = 1/n ∑nn=1i| = 1/n ∑i=1n | Υi - Ýi|
        • 公式中含义以下:
        • MAE : 平均绝对偏差
        • Ei : 第i个实际值与预测值得绝对偏差
        • Yi : 第i各实际值
        • Ýi : 第i各预测值
      • 因为预测偏差有正有负,为了不正负向抵消,故取偏差绝对值进行综合并取其平均数,这是偏差分析得综合指标法之一
    3. 均方偏差
      • 均方偏差定义以下:
        • MSE = 1/n∑ni=1Ε2i = 1/n∑nn=1i - Ýi)2
      • 上式中,MSE表示均方差,其余符号同前, 本方法用于还原平方失真程度
      • 均方偏差是预测偏差平方之和得平均数, 它避免了正负偏差不能相加得问题,因为对偏差E进行了平方,增强了数值大得偏差在指标中得做用,从而提升了这个指标得灵敏度,十一大优势,均方偏差是偏差分析得综合指标法之一.
    4. 均方根偏差
      • 均方根偏差定义以下:
        • RMSE = (1/n∑ni=1Ε2i)1/2 = (1/n∑ni=1i - Ýi)2)1/2
        • 上式中, RMSE表示均方根偏差, 其余符号同前,这是均方偏差得平方根,表明了预测值得离散程度, 也称为标准偏差,最佳拟合状况为RMSE = 0.均方根偏差也是偏差分析得综合指标之一
    5. 平均绝对百分偏差
      • 品骏绝对偏差定义以下:
        • MAPE = 1/n∑ni=1 | Εi / Υi |  = 1/n ∑nn=1 | (Υi - Ýi) / Υi |
      • 上式中, MAPE表示平均绝对百分偏差,通常认为认为MAPE小于10时, 预测精度较高
    6. Kappa统计
      • Kappa统计式比较两个或多个观测者对同一事物,或观测者对同一事物的两次或屡次观测结果是否一致, 以因为机遇形成的一致性和实际观测的一致性之间的差异大小做为评价基础的统计指标, Kappa统计量和加权Kappa统计量不只能够用于无序和有序分类变量资料的一致性, 重现性检验, 并且能给出一个反映一致大小的"量"值.
      • Kappa取值在[-1, 1]之间, 其值的大小均有不一样意义
        • Kappa = +1 说明两次判断结果彻底一致
        • Kappa = -1 说明两次判断的结果彻底不一致
        • Kappa = 0 说明两次判断的结果式基于形成
        • Kappa < 0 说明一致程度比机遇形成的还差, 两次检查结果很不一致, 在实际应用中无心义
        • Kappa > 0 说明有意义, Kappa越大, 说明一致性很好
        • Kappa >= 0.75 说明已经取得至关满意的一致程度
        • Kappa < 0.4 说明一致程度不够
      • 识别准确度
    7. 识别准确度定义以下:
      • Accuracy = (TP + FN) / (TP + TN + FP + FN) * 100%
      • TP (True Positives): 正确的确定表示正确确定的分类数.
      • TN (True Negatives): 正确的否认表示正确否认的分类数.
      • FP (False Positives): 错误的确定表示错误确定的分类数.
      • FN (False Negatives): 错误的否认表示错误否认的分类数 .
    8. 识别精准率
      • 是呗精准率以下:
        • Precision = TP / (TP + FP) * 100%
    9. 反馈率:
      • 反馈率定义以下
        • ec  all = TP / (TP + FP) * 100%
    10. ROC曲线
      • 受试者工做特性曲线是一种很是有效的模型评价方式,可为选定临界值给出定量提示.将灵敏度,设在纵轴, 1-特异性,设在横轴, 就能够得出ROC曲线图,该曲线下的积分面积大小,与每种方法优劣密切相关,反映分类器正确的统计几率,其值越接近1说明该宣发效果越好.
    11. 混淆矩阵
      • 混淆矩阵式模式识别领域中一种经常使用的表达形式,它描绘样本数据的真实属性与识别结果类型证件的关系,式评价分类器性能的一种经常使用方法,假设对于N类模式的分类任务,识别数据集D包括T0个样本,每类模式分别含有Ti个数据(i=1,...,N).采用某种识别计算法构造分类器C,cmij表示第i类模式被分类器C判断成第j类模式的数据占第i类模式样本总数的百分率,则可疑获得NxN维混淆矩阵.
      • CM(CD) = 

        cm11 cm12 ... cm1i ... cm1n
        cm21 cm22 ... cm2i ... cm2napp

        cmi1 cmi2 ... cmii ... cmin性能

        cmn1 cmn2 ... cmni ... cmnn测试

      • 混淆矩阵中元素的行下标对应目标的真实属性,列下标对应分类器产生的识别属性,对角线元素表示各模式可以被分类器C正确识别的百分率,而非对角线元素则表示发生错误判断的百分率
      • 经过混淆矩阵,剋得到分类器的正确识别率和错误识别率
      • 各模式正确识别率:
        • Ri = cmii, i = 1,...,N
      • 平均正确识别率:
        • Ra = ∑(cmii • Τi) / Τ0
      • 各模式错误识别率:
        • Wi = ∑nj=1,j≠i cmij = 1 - cmij = 1 - Ri
      • 平均错误识别率:
        • Wa = ∑ni=1nj=1,j≠i(cmij • Ti)/T0 = 1 - Ra
      • 对于一个二分类预测模型, 分类结束后的混淆矩阵以下:
      • 混淆矩阵 预测类
        类 = 1 类= 0
        实际类 类 = 1 A B
        类 = 0 C D
      • 若有150个样本数据,这些数据分红3类,每类50个,分类结束后获得的混淆矩阵以下:
      • 43
        5
        2
        0 1 49
        2 45

        3spa

      • 第一行的数听说明有43个样本正确分类,有5个样本应该属于第一类,却错误分到了第二类,有2个样本应该属于第一类,却错误的分到第三类.
相关文章
相关标签/搜索