机器学习1-基础知识
小书匠
算法工程师
机器学习
《机器学习》第2章-模型评估与选择
《统计学习方法》第1章-统计学习方法概论html
1. 机器学习三要素
方法=模型+策略+算法算法
- 模型:要学习的条件几率分布或者决策函数
- 策略:按照什么样的准则学习或者选择最佳模型
- 经验风险最小化:
- 结构风险最小化:即正则化(regularization),在经验风险的基础上增长表示模型复杂度的正则化项
- 算法:模型的具体计算方法,通常指最优化方法
2. 模型评估
- 简单交叉验证:随机地将数据集分为两个部分,一部分做为训练集,另外一部分做为测试集
- 交叉验证法cross validation:(1)将数据集划分为k个大小相等的互斥子集,
(2)每次使用k -1个子集的数据训练模型,剩下的一个子集用于测试模型。从而能够进行k 次训练和测试;(3)选出k 次测试中平均测试偏差最小的模型
- bootstrapping法:给定包含m个样本的数据集D,每次随机从D中有放回地抽样出一个样本,重复执行m次,生成新的数据集S。
即经过bootstrap sampling方法,原数据集D中仍然越有1/3的样本没有出如今数据集S中。没有出现的数据样本D-S能够做为测试集用于测试,这样的测试结果成为包外估计out-of-bag estimation
3. 性能度量
- 错误率与精度:
- 错误率:分类错误的样本数占样本总数的比例
- 精度:分类正确的样本数占样本总数的比例
- 查准率、查全率:
* 二分类问题的TP/FP/TN/FN
- 查准率P:全部被判断有病的样本中真正有病的几率
- 查全率R:全部被判断有病的的样本占真正有病的样本的比率
- F1值:查准率和查全率的调和平均值
- 查准率和查全率相互矛盾。对于一个测试样本,经过设置不一样的阈值,则分类器对样本的预测结果大于该阈值则判为正例,小于该阈值则判为负例,每一个阈值对应一个(查全率,查准率)数据点。全部阈值的对应点就组成了P-R曲线
- 若是一个学习器的P-R曲线被另外一个学习器彻底包住,则可断言后者的性能优于前者

- ROC和AUC:
- ROC曲线:
- 纵轴为“真正例率”(true positive rate, TPR),即查全率
- 横轴为“假正例率(false positive rate, FPR),即全部没病的样本中被错判为有病的几率

- AUC(area under ROC curve):ROC曲线下的面积,AUC值越大,则学习器性能越好
- 和P-R曲线相比,ROC曲线更具备鲁棒性,不容易受到样本变化的影响

4. 误差bias与方差variance