1)获得一个有限的训练数据集合
2)肯定包含全部可能的模型的假设空间,即学习模型的集合
3)肯定模型选择的准则,即学习的策略
4)实现求解最优模型的算法,即学习的算法
5)经过学习方法选择最优模型
6)利用学习的最优模型对新数据进行预测或分析算法
1)指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律网络
1)\(x=\left ( x^{(1)}, x^{(2)},x^{(3)},x^{(4)}...x^{(n)}\right )^{T}\)机器学习
1)\(x_{i}=\left ( x_{i}^{(1)}, x_{i}^{(2)},x_{i}^{(3)},x_{i}^{(4)}...x_{i}^{(n)}\right )^{T}\)函数
1)\(T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right )...\left ( x_{N},y_{N} \right ) \right \}\)性能
1)监督学习假设输入与输出的随机变量X和Y遵循联合几率分布P(X, Y),P(X, Y)表示分布函数,或分布密度函数。训练数据与测试数据被看做是依联合几率分布P(X, Y)独立同分布产生的。统计学习假设数据存在必定的统计规律,X和Y具备联合几率分布就是监督学习关于数据的基术假设学习
1)输入空间到输出空间的映射,模型能够表示为P(y|x)或y=f(x)测试
1)
在预测过程当中,预测系统对于给定的输入\(x_{N+1}\)由模型\(y_{N+1} = \underset{y}{argmax}\hat{P}\left ( y|x_{N+1} \right )\)或\(y_{N+1} = \hat{f}\left ( x_{N+1} \right )\)给出相应的输出\(y_{N+1}\)优化
1)指从无标注数据中学习预测模型的机器学习问题。无标注数据是天然获得的数据,预测模型表示数据的类别、转换或几率。无监督学习的本质是学习数据中的统计规律或潜在结构。能够用于对已有的数据进行分析或者对将来的数据进行预测
每个输出是对输入的分析结果,由输入的类别、转换或几率表达,模型能够实现对数据的聚类、降维或几率估计spa
1)函数\(z=g_{\theta }(x)\)(硬聚类:一个样本只能属于一个类)、条件几率分布\(P_{\theta }(z|x)\)(软聚类:一个样本能够属于多个类)或条件几率分布\(P_{\theta }(x|z)\)(几率模型估计)orm
1)指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Marlcov decision process)智能系统能观测到的是与环境互动获得的数据序列。强化学习的本质是学习最优的序贯决策。
1)
目标是长期累积的奖励最大化
1)
1)贝尔曼方程:
\(V_{*}\left ( s \right )= \underset{a}{\max}\underset{{s}',r}{\sum} p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{*}\left ( {s}' \right ) \right ]\)
贝尔曼方程中状态s的价值V(s)由两部分组成:
a.采起动做a后带来的奖励r
b.采起动做a后到达的新状态的价值V(s′)
2)策略迭代:
a.初始化: 随机选择一个策略做为初始值。 好比“无论什么状态, 一概朝下走”, 即P( A = 朝下走 | St=s) = 1, P( A = 其余 | St=s) = 0
b.进行策略评估: 根据当前的策略计算 \(V_{\pi }\left ( s \right )= E_{\pi }\left ( r+\gamma V_{\pi }\left ( {s}' \right )|S_{t}=s \right )\)。
c.进行策略提高: 计算当前状态的最优动做\(\underset{a}{\max}\left \{ q_{\pi }\left ( s,a \right ) \right \}\),更新策略\(\pi _{s}= \underset{a}{argmax}\underset{{s}',r}{\sum}p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{\pi }\left ( {s}' \right ) \right ]\)
d.不停地重复策略评估和策略提高, 直到策略再也不变化为止
1)指利用标注数据和未标注数据学习预测模型的机器学习问题
1)指机器不断主动给出实例让教师进行标注,而后利用标注数据学习预测模型的机器学习问题
1)监督学习中几率模型取条件几率分布形式P(y|x)且是生成模型,无监督学习中几率模型取几率分布形式P(z|x)或P(x|z)且是判别模型
2)决策树,朴素贝叶斯,隐马尔可夫模型,条件随机场,几率潜在语义分析,潜在狄利克雷分配,高斯混合模型,逻辑斯谛回归
1)监督学习中非几率模型取函数形式y=f(x),无监督学习中非几率模型取函数形式z=g(x)
2)感知机,支持向量机,K近邻,AdaBoost,K均值,潜在语义分析,神经网络,逻辑斯谛回归
1)贝叶斯公式:
后验几率:\(P\left ( \theta |D \right )=\frac{P\left ( D|\theta \right )\cdot P\left ( \theta \right )}{P\left ( D \right )}\)
极大似然估计:\(P\left ( D|\theta \right )=\prod_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
先验几率:\(P\left ( \theta \right )\)
几率密度函数:\(f\left ( \theta \right ) = -\sum_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
因为样本几率\(P\left ( D \right )\)固定,因此后验几率可化为求:
2)L1正则化:
假设\(\theta\)知足拉普拉斯分布\(P\left ( \theta \right )=\frac{1}{2\lambda }e\tfrac{-\left | \theta_{i} \right |}{\lambda }\)则①可化为:
L1范式:\(\left \| \theta \right \|_{1} = \left | \theta _{1} \right |+\left | \theta _{2} \right |+...+\left | \theta _{n} \right |\)
3)L2正则化:
假设\(\theta\)知足正态分布(均值为0,方差为\(\sigma ^{2}\))\(P\left ( \theta \right )=\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-\theta _{i}^{2}}{2\sigma ^{2}}}\)则①可化为:
L2范式:\(\left \| \theta \right \|_{2} =\sqrt{\theta _{1}^{2}+\theta _{2}^{2}+...+\theta _{n}^{2}}\)
4)L一、L2正则化防止过拟合:
正则化之因此可以下降过拟合的缘由在于,正则化是结构风险最小化的一种策略实现
给loss function加上正则化项,能使得新获得的优化目标函数h = f+normal,须要在f和normal中作一个权衡(trade-off),若是还像原来只优化f的状况下,那可能获得一组解比较复杂,使得正则项normal比较大,那么h就不是最优的,所以能够看出加正则项能让解更加简单,符合奥卡姆剃刀理论,同时也比较符合在误差和方差(方差表示模型的复杂度)分析中,经过下降模型复杂度,获得更小的泛化偏差,下降过拟合程度
L1正则化和L2正则化:
L1正则化就是在loss function后边所加正则项为L1范数,加上L1范数容易获得稀疏解(0比较多)。L2正则化就是loss function后边所加正则项为L2范数的平方,加上L2正则相比于L1正则来讲,获得的解比较平滑(不是稀疏),可是一样可以保证解中接近于0(但不是等于0,因此相对平滑)的维度比较多,下降模型的复杂度
1)定义:度量模型一次的好坏
2)分类:
1)定义:度量平均意义下模型预测的好坏
1)
1)
不等式(1.32)左端R(f)是泛化偏差,右端即为泛化偏差上界。在泛化偏差上界中,第一项时候训练偏差,训练偏差越小,泛化偏差也越小。第二项 \(\varepsilon \left ( d,N,\delta \right )\) 是N的单调递减函数,当N趋于无穷时趋于0。同时它也是 \(\sqrt{logd}\) 阶的函数,假设空间F包含的函数越多,其值越大。
Hoeffding不等式:
可知\(\hat{R}\left ( f \right ) = E\bar{x},R\left ( f \right ) = \bar{x}\)
(1.38)的推导:
生成模型估计的是联合几率分布,特色是从统计的角度表示数据的分布状况,能反映同类数据自己的类似度,不关心各种的边界在哪,生成模型能够获得判别模型,判别模型得不到生成模型
1)因为统计了数据的分布状况,因此其实际带的信息要比判别模型丰富,对于研究单类问题来讲也比判别模型灵活性强
2)模型能够经过增量学习获得(增量学习是指一个学习系统能不断地重新样本中学习新的知识,并能保存大部分之前已经学习到的知识)
3)收敛速度更快,当样本容量增长的时,生成模型能够更快的收敛于真实模型
4)隐变量存在时,也可使用
1)学习和计算过程比较复杂,因为学习了更多的样本信息,因此计算量大,若是咱们只是作分类,就浪费了这部分的计算量
2)准确率较差
3)每每须要对特征进行假设,好比朴素贝叶斯中须要假设特征间独立同分布,因此若是所选特征不知足这个条件,将极大影响生成式模型的性能
判别模型估计的是条件几率分布,不能反映训练数据自己的特性,目的在于寻找不一样类别之间的最优分界面
1)因为关注的是数据的边界,因此能清晰的分辨出多类或某一类与其余类之间的差别,因此准确率相对较高
2)计算量较小,须要的样本数量也较小
1)不能反映训练数据自己的特性
2)收敛速度较慢
对二分类: | 预测值: | 0 | 1 |
---|---|---|---|
真实 | 0 | TN | FN |
值 | 1 | FP | TP |
准确率:\(\frac{TP+TN}{D}\)
1)\(P=\frac{TP}{TP+FP}\) 须要更多的正类
1)\(P=\frac{TP}{TP+FN}\) 须要更多的负类正负样本不均衡使用
1)\(\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}\Rightarrow F_{1}=\frac{2PR}{P+R}=\frac{2TP}{2TP+FP+FN}\) 平衡精确率召回率
2)N分类:\(< F_{1}> =\frac{1}{n}\sum_{i=1}^{n}F_{i}=\frac{1}{n}\sum_{i=1}^{n}\frac{2P_{i}R_{i}}{P_{i}+R_{i}}\)
预测类做为正类其余类做为负类则化二分类问题