机器学习 | 李航《统计学习方法》笔记整理之(一)统计学习方法概论

本系列为李航《统计学习方法》学习笔记整理,如下为目录:算法

  (一)统计学习方法概论app

  (二)感知机函数

  (三)k近邻学习

  (四)朴素贝叶斯测试

  (五)决策树优化

  (六)逻辑斯蒂回归与最大熵模型ui

  (七)支持向量机spa

  (八)提高方法对象

  (九)EM算法及其推广blog

  (十)隐马尔科夫模型

       (十一)条件随机场

第一章 统计学习方法概论

统计学习的对象是数据,关于数据的基本假设是同类数据具备必定的统计规律性。
 · 特色:
数据独立同分布;模型属于某个假设空间(学习范围);给定评价准则下最优预测;最优模型的选择由算法实现

1.2 监督学习

给定有限训练数据出发,假设数据独立同分布,并且假设模型属于某个假设空间,应用某已评价准则,从假设空间中选择一个最优模型,使它对已给训练数据及未知测试数据在评价标准下有最准确的预测。
· 监督学习:分类、标注(序列预测)和回归
· 概念
输入空间、特征空间和输出空间
联合几率分布
假设空间 

1.3 三要素

a. 模型
模型就是所要学习的条件几率分布(非几率模型)或决策函数(几率模型)
 
b. 策略
统计学习的目标在于从假设空间中选取最优模型。
损失函数来度量预测错误的程度,损失函数的指望是
学习目标是选择指望风险最小的模型。
 
· 学习策略(选择最优化的目标函数):
1) 经验风险最小化
极大似然估计
2) 结构风险最小化(在经验风险上添加模型复杂度的正则化项,防止过拟合)
贝叶斯中的最大后验几率估计MAP
 
c. 算法- 最优化求解问题

1.4 模型评估与选择

训练偏差和测试偏差
过拟合

1.5 正则化与交叉验证(模型选择方法)

正则化符合奥卡姆剃刀原理;从贝叶斯估计的角度来看,正则化项对应模型的先验几率,复杂的模型具备较大先验几率。
交叉验证:简单、S折和留一交叉验证;

1.6 泛化能力

若是学到的模型是f,那么对未知数据的预测偏差为泛化偏差(指望风险):
对于二分类问题,训练偏差小的模型,泛化偏差也会小?

1.7 生成模型与判别模型

生成方法(generative approach) 由数据学习联合几率分布P(X,Y),而后求出条件几率分布P(Y|X)做为预测的模型 P(Y|X) = P(X, Y)/ P(X)
模型给定了输入X产生输出Y的生成关系。典型的有朴素贝叶斯和隐马尔可夫
 
判别方法(discriminate approach)由数据直接学习决策函数或条件几率分布。典型的有k近邻,感知机,决策树,最大熵,SVM等
相关文章
相关标签/搜索