机器学习1-基础知识

机器学习1-基础知识


《机器学习》第2章-模型评估与选择
《统计学习方法》第1章-统计学习方法概论html


1. 机器学习三要素

方法=模型+策略+算法算法

  • 模型:要学习的条件几率分布或者决策函数
  • 策略:按照什么样的准则学习或者选择最佳模型
    • 经验风险最小化:
    • 结构风险最小化:即正则化(regularization),在经验风险的基础上增长表示模型复杂度的正则化项
  • 算法:模型的具体计算方法,通常指最优化方法

2. 模型评估

  • 简单交叉验证:随机地将数据集分为两个部分,一部分做为训练集,另外一部分做为测试集
    • 训练/测试集的划分要尽量地保持数据分布的一致性
  • 交叉验证法cross validation:(1)将数据集划分为k个大小相等的互斥子集,

    (2)每次使用k -1个子集的数据训练模型,剩下的一个子集用于测试模型。从而能够进行k 次训练和测试;(3)选出k 次测试中平均测试偏差最小的模型
    • 留一法:
  • bootstrapping法:给定包含m个样本的数据集D,每次随机从D中有放回地抽样出一个样本,重复执行m次,生成新的数据集S。

    即经过bootstrap sampling方法,原数据集D中仍然越有1/3的样本没有出如今数据集S中。没有出现的数据样本D-S能够做为测试集用于测试,这样的测试结果成为包外估计out-of-bag estimation

3. 性能度量

  • 错误率与精度:
    • 错误率:分类错误的样本数占样本总数的比例
    • 精度:分类正确的样本数占样本总数的比例
  • 查准率、查全率:
    * 二分类问题的TP/FP/TN/FN
    enter description here
    • 查准率P:全部被判断有病的样本中真正有病的几率
    • 查全率R:全部被判断有病的的样本占真正有病的样本的比率
    • F1值:查准率和查全率的调和平均值
    • 查准率和查全率相互矛盾。对于一个测试样本,经过设置不一样的阈值,则分类器对样本的预测结果大于该阈值则判为正例,小于该阈值则判为负例,每一个阈值对应一个(查全率,查准率)数据点。全部阈值的对应点就组成了P-R曲线
      • 若是一个学习器的P-R曲线被另外一个学习器彻底包住,则可断言后者的性能优于前者
        enter description here
  • ROC和AUC:
    • ROC曲线:
      • 纵轴为“真正例率”(true positive rate, TPR),即查全率
      • 横轴为“假正例率(false positive rate, FPR),即全部没病的样本中被错判为有病的几率

        enter description here
    • AUC(area under ROC curve):ROC曲线下的面积,AUC值越大,则学习器性能越好
    • 和P-R曲线相比,ROC曲线更具备鲁棒性,不容易受到样本变化的影响
      enter description here

4. 误差bias与方差variance

  • 原因:算法在不一样训练集上学得的结果有可能不一样,即使这些训练集来自于同一个分布
  • 假设:对某个测试样本,令在数据集中的标记,的真实标记,某个训练集上学到的模型上的预测输出。以回归任务为例:
    • 学习算法在不一样数据集上的指望预测为
      bootstrap

    • 使用样本数相同的不一样训练集产生的预测结果的方差为
      app

    • 噪声为
      机器学习


      假定噪声指望为0,即

    • 误差(bias)为指望输出与真实标记的差异,即
      svg


      注意:误差是一个不随测试集D变化的常数

  • 对算法的指望泛化偏差进行分解:






    因而,返回偏差能够理解为方差、误差与噪声之和
    • 误差:学习算法的指望偏差与真实结果的偏离程度,刻画了学习算法自己的拟合能力
    • 方差:一样大小的训练集的变更所致使的学习性能的变化,刻画了数据扰动所形成的影响
    • 噪声:在当前任务下任何学习算法所能达到的指望泛化偏差的下限,刻画了学习问题自己的难度。表征了数据集的质量(食材的好坏)
      enter description here
      enter description here
  • 误差-方差权衡:
    • 欠拟合时,误差主导了泛化偏差率,训练数据的扰动不足以使学习器发生显著变化
    • 过拟合时,方差主导了泛化偏差率,学习器的拟合能力很是强,训练数据发生的轻微扰动都致使学习器发生显著变化
相关文章
相关标签/搜索