机器学习（二）工做流程与模型调优

时间 2019-12-09

标签机器学习流程模型繁體版

原文原文链接

上一讲中主要描述了机器学习特征工程的基本流程，其内容在这里：机器学习（一）特征工程的基本流程html

本次主要说明以下：网络

　　1）数据处理：此部分已经在上一节中详细讨论机器学习

　　2）特征工程：此部分已经在上一节中详细讨论函数

　　3）模型选择工具

　　4）交叉验证性能

　　5）寻找最佳超参数学习

首先看下总图：测试

（一）模型选择：

1）交叉验证spa

交叉验证集作参数/模型选择
测试集只作模型效果评估

2）K折交叉验证：htm

在Python中有这样的函数用于在交叉验证过程当中对参数的选择

（二）模型的状态

　　a. 过拟合：过拟合（overfitting）是指在模型参数拟合过程当中的问题，因为训练数据包含抽样偏差，训练时，复杂的模型将抽样偏差也考虑在内，将抽样偏差也进行了很好的拟合。

　　b. 欠拟合：模型在训练过程当中没有训练充分，致使模型很好的表现出数据原有性质。

模型状态验证工具：学习曲线

　　经过在给定训练样本增长的时候，测试机和训练集中准确率的变化趋势能够看到如今模型的状态。

怎么防止过拟合呢？

获取更多数据: 让模型「看见」尽量多的「例外状况」，它就会不断修正本身，从而获得更好的结果；

　　　　a)从数据源头采集更多数据

　　　　b) 经过必定规则扩充数据集，如加入随机噪声，图的旋转平移缩放

　　　　c) 采样技术

减少模型的复杂度：减小数的棵树，网络层数等；
减小训练时间 Early stopping：提早终止（当验证集上的效果变差的时候）；
加入正则项 / 增大正则化系数：这类方法直接将权值的大小加入到 Cost 里，在训练的时候限制权值变大；
使用集成学习：综合多个学习器的结果；
Dropout：相似于集成学习，是的网络结构发生了改变

怎样防止欠拟合？（通常不多出现）

找更多的特征
减少正则化系数

（三）模型分析

1）线下模型权重分析：线性或者线性kernel的model

Linear Regression
Logistic Regression
LinearSVM

2）对权重绝对值高/低的特征

作更细化的工做
特征组合

3） Bad-case分析　　

分类问题

哪些训练样本分错了？
咱们哪部分特征使得它作了这个断定？
这些bad cases有没有共性
是否有还没挖掘的特性

回归问题

哪些样本预测结果差距大，为何？

（四）模型融合

1）平均法

　　1. 简单平均法（simple averaging）

　　2. 加权平均法（weighted averaging）

　　注意：必须使用非负权重才能确保集成性能优于单一最佳个体学习器，所以在集成学习中通常对学习器的权重法以非负约束。
　　简单平均法实际上是加权平均法令w=1/T的特例。集成学习中的各类结合方法其实均可以视为加权平均法的特例或变体。加权平均法的权重通常是从训练数据中学习而得。因为现实任务中样本不充分或存在噪声，使得学得的权重不彻底可靠，有时加权平均法未必必定优于简单平均法。

2）投票法

　　对分类任务来讲，最多见的结合策略使用投票法

　　1. 绝对多数投票法（majority voting）：即若某标记得票过半数，则预测为该标记；不然拒绝预测

　　2. 相对多数投票法（plurality voting）：即预测为得票最多的标记，若同时有多个标记获最高票，则从中随机选取一个。

　　3. 加权投票法（weighted voting）：绝对多数投票法在可靠性要求较高的学习任务中是一个很好的机制，若必须提供结果，则使用相对多数投票法。

类标记：使用类标记的投票亦称“硬投票”（hard voting）。
类几率：使用类几率的投票亦称“软投票”（soft voting）。

　　以上两种不能混用，若基学习器产生分类置信度，例如支持向量机的分类间隔值，需使用一些技术如Platt缩放、等分回归、等进行校准后才能做为类几率使用。若基学习器的类型不一样，则其类几率值不能直接进行比较，可将类几率输出转化为类标记输出而后再投票。

3）Stacking：Stacking方法是指训练一个模型用于组合其余各个模型。首先咱们先训练多个不一样的模型，而后把以前训练的各个模型的输出为输入来训练一个模型，以获得一个最终的输出。理论上，Stacking能够表示上面提到的两种Ensemble方法，只要咱们采用合适的模型组合策略便可。但在实际中，咱们一般使用logistic回归做为组合策略。

关于集成学习这里也有更详细的描述：集成学习

参考

七月在线机器学习课程
周志华：机器学习西瓜书