笔者处于学习阶段,有任何问题欢迎指正。
这一篇文章中我们将会对机器学习的可行性进行一次讨论,首先我们得明确一个分类器怎么才算是好的分类器呢?很简单,能准确分类的就是好分类器。但是事情并没有那么简单,如果您感到好奇就继续往下看吧。这里放一下我要讲解的大纲。
我们前面说了,好的分类器能够精准的分类,但是什么才是精准的分类呢?我们看一个例子就会明白了!
假如有以下学习问题:
上面6个是用来训练分类器的样本,得到训练函数
我们再看一个相似的例子:
输入特征
输出特征
其中g是我们的分类器,f1~f8是理想的分类器。这里大家可能会疑惑,为什么有这么多的理想分类器呢?理想分类器不应该只有一个吗?我想是的,理想分类器确实只有一个。这里有8个理想分类器是为了说明当这8个理想分类器对样本数据预测结果相同,对测试数据确并不相同,但是这几个都是正确的分类器。因此,我们预测的分类器g就迷惑了,到底与哪个理想分类器相似才是好的分类器呢?同样的,不管怎么说都可以,因为对于样本的预测都是对的呀。
既然这样子,机器学习还有什么用呢?
请大家不要着急,这一问题会慢慢揭晓的。为了更好的理解这一问题,我们得讲一下霍夫丁不等式。
假如有一个罐子,里面有绿色的小球和橙色的小球,我们如何能知道里面每种颜色的小球比例呢?当然,直接数是一个不错的方法,但是当小球的数量太多时这一方法会变得非常吃力。统计学中可以进行抽样,然后使用样本的统计量(statistic)来推断总体的参数(parameter),譬如使用样本均值估计总体期望。
对待数小球的这一问题,我们可以从罐子中抓一把球,然后数一下这些球中每种颜色的小球比例,以此来估计罐子中每种颜色的小球比例。
那么,我们如何能保证
上一部分讲了这么多概率论的东西,又和机器学习有什么关系呢?这一部分我会将两者联系起来,回答大家机器学习是否可行。
一张对比图告诉大家:
看不懂不要紧,我慢慢讲解每一条。
1. 罐子中未知的黄色小球概率
2. 从罐子中取出的的样本 =============》从所有资料中取出的样本
3. 黄色小球 ==================》假设函数
4. 绿色小球==================》 假设函数
5. 检查抽出来N个黄色小球的概率 ================》检验假设函数
因此,使用上一部分的逻辑,我们可以通过预测选择样本的正确性来评估分类器的好坏。即分类器的实际错误率(未知)为:
到此为止万无一失了吗?No,因为概率论喜欢与人开玩笑。举个例子,150个人,每人抛一个硬币5次,至少有一个人5次皆为人头向上的概率为99.15%。所以一个小概率事件如果重复多次,它发生的概率也会非常的大。
同理,学习算法中会发生如下情况:
学习算法
但是当h增多呢?
根据之前的分析,对于单一假设函数来说,某一样本是BAD的概率很小。而当
所以,当假设空间有限时(大小为M)时, 只要N 足够大,发生BAD sample 的概率就非常小。此时学习是有效的。但是当M趋向于无穷大时怎么办呢?我们之后会讨论。