本文是斯坦福大学 CS229 机器学习课程的基础材料,原始文件下载[1]
原文作者:Arian Maleki , Tom Do
翻译:石振宇[2]
审核和修改制作:黄海广[3]
备注:请关注github[4]的更新。线性代数的翻译见(这篇文章)。
概率论复习和参考
概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测度论。在这篇笔记中,我们提供了概率的一些基本处理方法,但是不会涉及到这些更复杂的细节。
为了定义集合上的概率,我们需要一些基本元素,
样本空间 :随机实验的所有结果的集合。在这里,每个结果 可以被认为是实验结束时现实世界状态的完整描述。
事件集(事件空间) :元素 的集合(称为事件)是 的子集(即每个 是一个实验可能结果的集合)。
备注: 需要满足以下三个条件:
(1)
(2)
(3)
概率度量 :函数 是一个 的映射,满足以下性质:
对于每个 , ,
如果 是互不相交的事件 (即 当 时, ), 那么:
以上三条性质被称为概率公理。
举例:
考虑投掷六面骰子的事件。样本空间为 。最简单的事件空间是平凡事件空间 .另一个事件空间是 的所有子集的集合。对于第一个事件空间,满足上述要求的唯一概率度量由 , 给出。对于第二个事件空间,一个有效的概率度量是将事件空间中每个事件的概率分配为 ,这里 是这个事件集合中元素的数量;例如 , 。
性质:
如果 ,则:
(布尔不等式):
(全概率定律):如果 是一些互不相交的事件并且它们的并集是 ,那么它们的概率之和是 1
假设 是一个概率非 0 的事件,我们定义在给定 的条件下 的条件概率为:
换句话说, )是度量已经观测到 事件发生的情况下 事件发生的概率,两个事件被称为独立事件当且仅当 (或等价地, )。因此,独立性相当于是说观察到事件 对于事件 的概率没有任何影响。
考虑一个实验,我们翻转 10 枚硬币,我们想知道正面硬币的数量。这里,样本空间 的元素是长度为 10 的序列。例如,我们可能有。然而,在实践中,我们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们 10 次投掷中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量。
更正式地说,随机变量 是一个的 函数。通常,我们将使用大写字母 或更简单的 (其中隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母 来表示随机变量的值。
举例:在我们上面的实验中,假设 是在投掷序列 中出现的正面的数量。假设投掷的硬币只有 10 枚,那么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 相关联的集合取某个特定值 的概率为:
举例:假设 是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下, 具有无限多的可能值,因此它被称为连续随机变量。我们将 在两个实常数 和 之间取值的概率(其中 )表示为:
为了指定处理随机变量时使用的概率度量,通常可以方便地指定替代函数(CDF、PDF和PMF),在本节和接下来的两节中,我们将依次描述这些类型的函数。
累积分布函数(CDF)是函数 ,它将概率度量指定为:
通过使用这个函数,我们可以计算任意事件发生的概率。图 1 显示了一个样本CDF函数。
当随机变量 取有限种可能值(即, 是离散随机变量)时,表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数 ,这样:
在离散随机变量的情况下,我们使用符号 表示随机变量 可能假设的一组可能值。例如,如果 是一个随机变量,表示十次投掷硬币中的正面数,那么 是一个随机变量,表示十次投掷硬币中的正面数,那么 。
性质: