上一讲中主要描述了机器学习特征工程的基本流程,其内容在这里:机器学习(一)特征工程的基本流程html
本次主要说明以下:网络
1)数据处理:此部分已经在上一节中详细讨论机器学习
2)特征工程:此部分已经在上一节中详细讨论函数
3)模型选择工具
4)交叉验证性能
5)寻找最佳超参数学习
首先看下总图:测试
1)交叉验证spa
2)K折交叉验证:htm
在Python中有这样的函数用于在交叉验证过程当中对参数的选择
a. 过拟合:过拟合(overfitting)是指在模型参数拟合过程当中的问题,因为训练数据包含抽样偏差,训练时,复杂的模型将抽样偏差也考虑在内,将抽样偏差也进行了很好的拟合。
b. 欠拟合 :模型在训练过程当中没有训练充分,致使模型很好的表现出数据原有性质。
模型状态验证工具:学习曲线
经过在给定训练样本增长的时候,测试机和训练集中准确率的变化趋势能够看到如今模型的状态。
怎么防止过拟合呢?
a)从数据源头采集更多数据
b) 经过必定规则扩充数据集,如加入随机噪声,图的旋转平移缩放
c) 采样技术
怎样防止欠拟合? (通常不多出现)
1)线下模型权重分析:线性或者线性kernel的model
2)对权重绝对值高/低的特征
3) Bad-case分析
分类问题
回归问题
1)平均法
1. 简单平均法(simple averaging)
2. 加权平均法(weighted averaging)
注意:必须使用非负权重才能确保集成性能优于单一最佳个体学习器,所以在集成学习中通常对学习器的权重法以非负约束。
简单平均法实际上是加权平均法令w=1/T的特例。集成学习中的各类结合方法其实均可以视为加权平均法的特例或变体。加权平均法的权重通常是从训练数据中学习而得。因为现实任务中样本不充分或存在噪声,使得学得的权重不彻底可靠,有时加权平均法未必必定优于简单平均法。
2)投票法
对分类任务来讲,最多见的结合策略使用投票法
1. 绝对多数投票法(majority voting):即若某标记得票过半数,则预测为该标记;不然拒绝预测
2. 相对多数投票法(plurality voting):即预测为得票最多的标记,若同时有多个标记获最高票,则从中随机选取一个。
3. 加权投票法(weighted voting):绝对多数投票法在可靠性要求较高的学习任务中是一个很好的机制,若必须提供结果,则使用相对多数投票法。
以上两种不能混用,若基学习器产生分类置信度,例如支持向量机的分类间隔值,需使用一些技术如Platt缩放、等分回归、等进行校准后才能做为类几率使用。若基学习器的类型不一样,则其类几率值不能直接进行比较,可将类几率输出转化为类标记输出而后再投票。
3)Stacking:Stacking方法是指训练一个模型用于组合其余各个模型。首先咱们先训练多个不一样的模型,而后把以前训练的各个模型的输出为输入来训练一个模型,以获得一个最终的输出。理论上,Stacking能够表示上面提到的两种Ensemble方法,只要咱们采用合适的模型组合策略便可。但在实际中,咱们一般使用logistic回归做为组合策略。
关于集成学习这里也有更详细的描述:集成学习
参考