李宏毅机器学习笔记6：Why deep、Semi-supervised

时间 2019-11-13

标签机器学习笔记 deep semi supervised 繁體版

原文原文链接

李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL很是好的入门资料，在YouTube、网易云课堂、B站都能观看到相应的课程视频，接下来这一系列的博客我都将记录老师上课的笔记以及本身对这些知识内容的理解与补充。(本笔记配合李宏毅老师的视频一块儿使用效果更佳！）算法

Lecture 8：Why deep？

1.Shallow network VS Deep network网络

在比较浅层网络与深层网络时，要让“矮胖”的网络和“高瘦”的网络的参数数目相等，这样比较才公平,以下图所示app

比较结果以下图所示：机器学习

从上图能够看出：即使是在深层网络参数较少的状况下，深层网络也会比浅层网络表现好。这是由于“深层”其实至关于“模组化”，第一个隐层是最基本的分类器，第二个隐层是用第一个隐层建造的分类器，以此类推。函数

2.模组化(Modularization)学习

（1）举个图像识别的例子，识别长发男生、长发女生、短发男生和短发女生，以下，因为长发男生样本少，因此模型训练出来的效果对测试集上的长发男生效果会比较差（样本不平衡）测试

所以接下来让咱们使用模组化的思想解决这一问题，咱们先考虑识别基础类别（男女、长发短发），即咱们先input一张图片，识别这是长发仍是短发，这是男仍是女，此时样本比例是至关的，由此训练的效果不会变差，且由两个基础类别的组合能够获得最终的四个类别。优化

深度学习的优点就体如今模组化的处理方式，第二层的神经元把第一层的神经元看成modile，第三层的神经元把第二层的神经元看成module（具体module由算法自动学习）。此时复杂的问题变成简单问题，深度学习须要的数据比较少。spa

3.浅层网络确实能够表示任意函数，可是使用深层结构更有效率.net

具体能够经过逻辑门电路例子来解释这个理论：用两层逻辑门就能够实现任何布尔函数，可是用多层结构更简单、须要的逻辑门更少，更少的逻辑门表明着更高的效率

4.最后，在本节课老师采用了语音识别，MNIST数据集识别等例子再次证实和强调了Why Deep？和Deep带来的好处！

1.Introduction

（1）半监督学习的训练数据，有一部分是标注数据，有一部分是无标注数据。

（2）Transductive learning和Inductive learning均可算是半监督学习，区别在于前者的无标注数据是测试数据（除去label），然后者的无标注数据不包括测试数据。实际中用哪一种常取决因而否有测试集。

（3）无标注数据的分布会让咱们作出一些假设，半监督学习有没有用就取决于假设是否合理。

（4）介绍半监督学习的大纲：以下图所示

2.Semi-supervised Learning for Generative Model

（1）先让咱们看看监督学习和半监督学习的生成模型的对比，(Supervised Generative Model VS Semi-supervised Generative Model)

监督学习：

非监督学习：

从上图能够看出，无标注数据有助于从新估计生成模型假设中的参数，从而影响决策边界

（2）求解模型采用的方法

求解该模型采用的是EM算法，EM算法也是机器学习十大算法之一，求解步骤以下图所示：

3.Low-density Separation Assumption

（1）以前提过半监督学习有没有用很大一部分就取决于假设是否合理，如今让咱们了解一下第一个假设“低密度分离”--------非黑即白。

（2）该假设的应用过程以下：

给你一堆初始数据，该数据包括有标记和无标记的
从有标记的数据中训练出一个模型f*.
从数据中选出一些无标记的数据，将这些数据扔入模型f*中，将获得的结果赋予这些无标记的数据的标签，而后将这些数据从无标记数据集中删除并加入有标记的数据集中，重复此过程。

（3）Self-training结果优化：若是神经网络的输出是一个分布，咱们但愿这个分布要集中

4.Smoothness Assumption(第二个假设)

（1）核心思想：假设特征的部分是不均匀的（在某些地方集中，某些地方分散），若是两个特征在高密度区域是相近的，那么两者的标签是相同的。

就拿上图数字辨识的例子来看，能够经过一条high density path完成------->的转变

（2）若是数据量很大，如何作到肯定这条high density path呢？

这种方法有明显的缺点：它只适用于每一个class的分类较为清晰。因此引入另一种办法

1）如何构建这个图呢？

2）如何在图中定量的表示平滑度呢？

其中，smoothness不必定要放在output上，放到任何一层均可以。

5.Better Representation

该部分的学习放到无监督学习中！！

课件pdf参考： https://blog.csdn.net/soulmeetliang/article/details/73251790

以上就是本次学习的内容，欢迎交流与讨论