从贝叶斯公式到垃圾邮件的识别

时间 2020-02-09

标签贝叶公式垃圾邮件识别繁體版

原文原文链接

看《***与画家》讲到"防止垃圾邮件的一种方法"，以为很适合用来表述数学公式与机器学习之间的关系。涉及到机器学习的数学公式比较简单，几率论基础教程都会讲到。解决的问题也很典型：垃圾邮件的识别。算法

防止垃圾邮件有不少种方法，最直观的一种就是“规则”, 各类if-else的条件。这种方法可以解决一个问题，可是解决不了一类问题。并且，这个规则的制定须要很是熟悉业务，好在一般咱们面临的业务问题是很垂直的，经过规则，也可以解决问题。毕竟解决问题才是业务的核心诉求。编程

接下来，业务随着业务的发展，规则愈来愈复杂，咱们维护起来也愈来愈吃力。并且使用规则，是被动式的解决问题，用户体验也很差。这个时候，新的方法该上场了，这个方法就是 “统计学方法”。由于接触的规则越多，咱们会慢慢发现邮件中出现某个关键词，只能表示邮件有多是垃圾邮件。这个可能性如何度量呢？用贝叶斯方法。机器学习

贝叶斯方法的思路属于逆向思惟。一般几率论解决的问题是“已知邮件是垃圾邮件，问各个单词出如今垃圾邮件中的几率”，贝叶斯方法解决的问题是“已知邮件内容，问当前邮件属于垃圾邮件的几率".ide

理解贝叶斯公式不难，其基础点有"条件几率", "联合几率"。贝叶斯公式的推导也很简单:学习

P(AB) = P(B)*P(A|B) 教程

P(AB) = P(A)*P(B|A)token

有:数学

P(B)*P(A|B)=P(A)*P(B|A)it

因此class

P(A|B) = P(A)*P(B|A) / P(B)

虽然机器学习最忌讳的就是套公式，可是为了方便理解，咱们先套个公式:

P(垃圾邮件|邮件内容) 表示 ”在已知邮件内容，邮件属于垃圾邮件的几率“

P(垃圾邮件|邮件内容) = P(垃圾邮件) * P(邮件内容|垃圾邮件) / P(邮件内容)

等式右边的几率是能够经过样本计算出来的。

如今解决问题的方法有了，数学公式也有了，是否是问题就解决了呢？显然不是。咱们只是完成了模型选择而已。经过《***与画家》看这个模型是如何落地的。

选择样本：做者选取了4000封正常邮件和4000封垃圾邮件。
选择特征：字母、阿拉伯数字、破折号、撇号、美圆符号做为“实义标识”
统计次数: 计算了每一个实义标识在两个邮件组出现的次数
肯定计算公式。这里其实就是整篇文章的精华了。a. 做者没有完彻底全套用贝叶斯公式; b. 做者分别在token和邮件两个维度用了贝叶斯思想。这才是难能难得的。
特征选择: 做者选取了top15的特征，而非邮件所有的token.
结果选取: 一般咱们选取结果是以0.5为界，而做者以0.9为界。

若是说一般意义上的编程是一维的，那么机器学习的编程就是二维的。一般的工程问题是非黑即白，要么可用，要么是有Bug不可用。而机器学习在工程上的落地，更核心的关注点在于算法效果好很差和算法效果能不能更好。算法效果好很差，核心点在于数学模型，其次在于怎么用好数学模型。《***与画家》用简明的例子说明他是怎么用数学模型解决业务问题的。

引伸一下：这个问题属于典型的二分类问题。像垃圾邮件，垃圾评论，评论的情感判断，是否目标用户，是否推荐用户... 不少问题均可以归类到二分类问题。若是把"垃圾邮件的识别"抽象到分类问题，整个解决问题的思路就又开阔了不少。