数据挖掘day12-CS229-Review of Probability Theory

没找到中文翻译,只能本身作翻译了(未完待填坑)html

几率论是对不肯定性的研究。经过这个课程,咱们将依靠几率论的概念来推导机器学习算法。 本文试图归纳适合于CS 229水平的几率论基础知识。几率的数学理论很是复杂,其深层次内容为测量理论的分支。 在这些文档中,咱们提供了几率的基本处理,但没有解决这些细节问题。web

一、几率基本元素

为了定义集合上的几率,咱们须要一些基本元素:
• 样本空间 Ω \Omega :随机实验的全部结果的集合。在这里,每一个结果 ω Ω \omega \in \Omega 能够被认为是实验结束时现实世界状态的完整描述。
•事件集(或事件域) ϝ \digamma :事件域是指一个样本空间 Ω \Omega 中某些子集 A ϝ A \in \digamma 组成的集合类( A Ω A\subseteq \Omega 是实验可能结果的集合)。
•几率公理化定义:函数 P : ϝ R P:\digamma→\mathbb{R} ,而且具备一下属性:
非负性:全部 A ϝ A \in \digamma 都有 P ( A ) 0 P(A)\ge0
规范性: P ( Ω ) = 0 P(\Omega)=0
可列可加性:若 A 1 , A 2 , A_1,A_2,\cdots 是不相交事件(即, A i A j = , i j A_i \cap A_j=\empty,i \ne j ),则有:算法

P ( i A i ) = i P ( A i ) P(\cup_iA_i)=\displaystyle \sum_iP(A_i)
这三个属性被称为几率的公理。
**示例:**例如抛掷6面骰子。样本空间为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } Ω= \{1,2,3,4,5,6\} 。咱们能够在此样本空间上定义不一样的事件域。 例如,最简单的事件域是 F = { Ω } F = \{∅,Ω\} 。 另外一个事件空间是Ω的全部子集的集合。 对于第一个事件空间,知足上述要求的惟一律率测度由 P ( ) = 0 P ( Ω ) = 1 P(∅)= 0,P(Ω)= 1 给出。对于第二个事件空间,一个有效的几率计算是事件空间中每一个集合的几率为 i 6 \frac{i}{6} ,其中i是该集合的元素数量; 例如, P ( { 1 , 2 , 3 , 4 } ) = 4 6 P(\{1,2,3,4\})= \frac{4}{6} , P ( { 1 , 2 , 3 } ) = 3 6 P(\{1,2,3\})= \frac{3}{6}
属性:app

  • A B P ( A ) P ( B ) A ⊆ B ⇒ P(A) ≤ P(B) .
  • P ( A B ) m i n ( P ( A ) , P ( B ) ) P(A ∩ B) ≤ min(P(A), P(B)) .
  • P ( A B ) P ( A ) + P ( B ) P(A ∪ B) ≤ P(A) + P(B) .
  • P (   A ) = 1 P ( A ) P(Ω \ A) = 1 − P(A) .
  • A 1 , A 2 , , A k A_1,A_2,\cdots,A_k 是不相交事件,且 i = 1 k A i = ∪_{i=1}^kA_i = Ω ,则:
    i k P ( A k ) = 1 \displaystyle \sum_i^kP(A_k) = 1

1.一、条件几率和独立性

设B是具备非零几率的事件。在给定B条件下,A的条件几率定义为机器学习

P ( A B ) = P ( A B ) P ( B ) P(A|B)= \frac{P(A ∩ B)} {P(B)} svg

换句话说, P A B P(A | B) 是观察事件B发生后事件A的几率。当且仅当 P ( A B ) = P ( A ) P ( B ) P(A∩B)= P(A)P(B) 时,两个事件被称为独立事件。(或等效地, P ( A B ) = P ( A ) P(A | B)= P(A) )。 所以,独立性至关于说B对A的几率没有任何影响。函数

二、随机变量

考虑一个10次抛硬币的实验,咱们想知道出现的头的次数。 这里,样本空间Ω的元素是10个长度的头或花序列。 例如,咱们可能有 w 0 = H H T H T H H T T T Ω w_0 = \langle H,H,T,H,T,H,H,T,T,T \rangle ∈Ω 。 然而,在实践中,咱们一般不关心得到任何头或花序列的可能性。相反,咱们一般关心结果的数值函数,例如在咱们的10次投掷中出现的头数,或者最长连续花的数量。在某些技术条件下,这些函数称为随机变量。学习

更正式地,随机变量X是函数 X Ω R 2 X:Ω→\mathbb{R}^2 。 一般,咱们将使用大写字母 X ( ω ) X(ω) 或更简单地 X X (其中隐含对随机结果ω的依赖性)来表示随机变量。 咱们将使用小写字母 x x 表示随机变量可能采用的值。spa

**示例:**在上面的实验中,假设 X ( ω ) X(ω) 是在投掷序列ω中出现的头数。 假设只抛出10次硬币, X ( ω ) X(ω) 只能获取有限数量的值,所以它被称为离散随机变量。 这里,与随机变量X相对应的集合在某个特定值k上的几率是:翻译

p ( X = k ) : = P ( { ω : X ( ω ) = k } ) p(X=k):=P(\{ω:X(ω)=k\})

**示例:**假设 X ( ω ) X(ω) 是一个随机变量,表示放射性粒子衰变所需的时间。 在这种状况下, X ( ω ) X(ω) 具备无限数量的可能值,所以称为连续随机变量。 咱们用X表示在两个实常数a和b(其中 a < b a <b )之间的几率:

p ( a X b ) : = P ( { ω : a X ( ω ) b } ) p(a≤ X≤ b):=P(\{ω:a≤ X(ω)≤ b\})

2.一、累积分布函数

为了指定在处理随机变量时使用的几率度量,一般很容易指定替代函数(CDF,PDF和PMF),从中能够当即控制实验的几率测量。 在本节和接下来的两节中,咱们依次描述这些类型的函数。