没找到中文翻译,只能本身作翻译了(未完待填坑)html
几率论是对不肯定性的研究。经过这个课程,咱们将依靠几率论的概念来推导机器学习算法。 本文试图归纳适合于CS 229水平的几率论基础知识。几率的数学理论很是复杂,其深层次内容为测量理论的分支。 在这些文档中,咱们提供了几率的基本处理,但没有解决这些细节问题。web
一、几率基本元素
为了定义集合上的几率,咱们须要一些基本元素:
• 样本空间
Ω:随机实验的全部结果的集合。在这里,每一个结果
ω∈Ω能够被认为是实验结束时现实世界状态的完整描述。
•事件集(或事件域)
ϝ:事件域是指一个样本空间
Ω中某些子集
A∈ϝ 组成的集合类(
A⊆Ω是实验可能结果的集合)。
•几率公理化定义:函数
P:ϝ→R ,而且具备一下属性:
非负性:全部
A∈ϝ都有
P(A)≥0
规范性:
P(Ω)=0
可列可加性:若
A1,A2,⋯是不相交事件(即,
Ai∩Aj=∅,i=j),则有:算法
P(∪iAi)=i∑P(Ai)
这三个属性被称为几率的公理。
**示例:**例如抛掷6面骰子。样本空间为
Ω={1,2,3,4,5,6}。咱们能够在此样本空间上定义不一样的事件域。 例如,最简单的事件域是
F={∅,Ω}。 另外一个事件空间是Ω的全部子集的集合。 对于第一个事件空间,知足上述要求的惟一律率测度由
P(∅)=0,P(Ω)=1给出。对于第二个事件空间,一个有效的几率计算是事件空间中每一个集合的几率为
6i,其中i是该集合的元素数量; 例如,
P({1,2,3,4})=64,
P({1,2,3})=63。
属性:app
-
A⊆B⇒P(A)≤P(B).
-
P(A∩B)≤min(P(A),P(B)).
-
P(A∪B)≤P(A)+P(B).
-
P(Ω A)=1−P(A).
- 若
A1,A2,⋯,Ak是不相交事件,且
∪i=1kAi=Ω,则:
i∑kP(Ak)=1
1.一、条件几率和独立性
设B是具备非零几率的事件。在给定B条件下,A的条件几率定义为机器学习
P(A∣B)=P(B)P(A∩B)svg
换句话说,
P(A∣B)是观察事件B发生后事件A的几率。当且仅当
P(A∩B)=P(A)P(B)时,两个事件被称为独立事件。(或等效地,
P(A∣B)=P(A))。 所以,独立性至关于说B对A的几率没有任何影响。函数
二、随机变量
考虑一个10次抛硬币的实验,咱们想知道出现的头的次数。 这里,样本空间Ω的元素是10个长度的头或花序列。 例如,咱们可能有
w0=⟨H,H,T,H,T,H,H,T,T,T⟩∈Ω。 然而,在实践中,咱们一般不关心得到任何头或花序列的可能性。相反,咱们一般关心结果的数值函数,例如在咱们的10次投掷中出现的头数,或者最长连续花的数量。在某些技术条件下,这些函数称为随机变量。学习
更正式地,随机变量X是函数
X:Ω→R2。 一般,咱们将使用大写字母
X(ω)或更简单地
X(其中隐含对随机结果ω的依赖性)来表示随机变量。 咱们将使用小写字母
x表示随机变量可能采用的值。spa
**示例:**在上面的实验中,假设
X(ω)是在投掷序列ω中出现的头数。 假设只抛出10次硬币,
X(ω)只能获取有限数量的值,所以它被称为离散随机变量。 这里,与随机变量X相对应的集合在某个特定值k上的几率是:翻译
p(X=k):=P({ω:X(ω)=k})
**示例:**假设
X(ω)是一个随机变量,表示放射性粒子衰变所需的时间。 在这种状况下,
X(ω)具备无限数量的可能值,所以称为连续随机变量。 咱们用X表示在两个实常数a和b(其中
a<b)之间的几率:
p(a≤X≤b):=P({ω:a≤X(ω)≤b})
2.一、累积分布函数
为了指定在处理随机变量时使用的几率度量,一般很容易指定替代函数(CDF,PDF和PMF),从中能够当即控制实验的几率测量。 在本节和接下来的两节中,咱们依次描述这些类型的函数。