猪猪的机器学习（十三）贝叶斯网络

时间 2019-12-02

原文原文链接

贝叶斯网络

做者：樱花猪算法

摘要网络

本文为七月算法（julyedu.com）12月机器学习第十三次次课在线笔记。贝叶斯网络又称信度网络，是Bayes方法的扩展，是目前不肯定知识表达和推理领域最有效的理论模型之一。贝叶斯网络适用于表达和分析不肯定性和几率性的事件，应用于有条件地依赖多种控制因素的决策，能够从不彻底、不精确或不肯定的知识或信息中作出推理。本节课从朴素贝叶斯模型开始，详细描述了贝叶斯网络的意义，构建方案以及其余衍生算法。机器学习

引言ide

贝叶斯网络是机器学习中很是经典的算法之一，它可以根据已知的条件来估算出不肯定的知识，应用范围很是的普遍。贝叶斯网络以贝叶斯公式为理论接触构建成了一个有向无环图，咱们能够经过贝叶斯网络构建的图清晰的根据已有信息预测将来信息。函数

本次课程从朴素贝叶斯开始分享了贝叶斯网络的构建方案、贝叶斯网络中独立条件的判断以及咱们熟悉的马尔科夫模型、马尔科夫毯等。这一张理论基础不太强，多为理解内容。学习

预备知识测试

最大熵模型、几率统计spa

1、朴素贝叶斯3d

1、朴素贝叶斯假设（与贝叶斯网络区别）orm

一个特征出现的几率，与其余特征（条件）独立（特征独立性），实际上是：对于给定分类的条件下，特征独立

每一个特征同等重要（特征均衡性）

例子：文本分类问题：

样本：10000封邮件，每一个邮件被标记为垃圾邮件或者非垃圾邮件

分类目标：给定第10001封邮件，肯定它是垃圾邮件仍是非垃圾邮件

方法：朴素贝叶斯

类别c：垃圾邮件c1，非垃圾邮件c2

词汇表，两种创建方法：

1、使用现成的单词词典；2、将全部邮件中出现的单词都统计出来，获得词典。

记单词数目为N

将每一个邮件m映射成维度为N的向量xn

若单词wi在邮件m中出现过，则xi=1，不然，xi=0。即邮件的向量化：m-->(x1,x2……xN)o

贝叶斯公式：P(c|x)=P(x|c)*P(c)/P(x)

P(c1|x)=P(x|c1)*P(c1)/P(x)

P(c2|x)=P(x|c2)*P(c2)/P(x)

注意这里x是向量

(c|x)=P(x|c)*P(c)/P(x)

P(x|c)=P(x1,x2…xN|c)=P(x1|c)*P(x2|c)…P(xN|c)

特征条件独立假设

P(x)=P(x1,x2…xN)=P(x1)*P(x2)…P(xN)

特征独立假设

带入公式：P(c|x)=P(x|c)*P(c)/P(x)

o等式右侧各项的含义：

nP(xi|cj)：在cj(此题目，cj要么为垃圾邮件1，要么为非垃圾邮件2)的前提下，第i个单词xi出现的几率

nP(xi)：在全部样本中，单词xi出现的几率

nP(cj)：在全部样本中，邮件类别cj出现的几率

拉普拉斯平滑（防止是0的状况）

p(x1|c1)是指的:在垃圾邮件c1这个类别中，单词x1出现的几率。（x1是待考察的邮件中的某个单词）

定义符号：

n1：在全部垃圾邮件中单词x1出现的次数。若是x1没有出现过，则n1=0。

nn：属于c1类的全部文档的出现过的单词总数目。

o获得公式：

o拉普拉斯平滑：

n其中，N是全部单词的数目。修正分母是为了保证几率和为1

同理，以一样的平滑方案处理p(x1)

2、贝叶斯网络

把某个研究系统中涉及的随机变量，根据是否条件独立绘制在一个有向图中，就造成了贝叶斯网络。

贝叶斯网络，又称有向无环图模型（DAG），是一种几率图模型，根据几率图的拓扑结构，考察一组随机变量{X1,X2...Xn}及其n组条件几率分布（CPD）的性质。

通常而言，贝叶斯网络的有向无环图中的节点表示随机变量，它们能够是可观察到的变量，或隐变量、未知参数等。链接两个节点的箭头表明此两个随机变量是具备因果关系(或非条件独立)。若两个节点间以一个单箭头链接在一块儿，表示其中一个节点是“因(parents)”，另外一个是“果(children)”，两节点就会产生一个条件几率值。

每一个结点在给定其直接前驱时，条件独立于其非后继。

贝叶斯网络的形式化定义：

BN(G,Θ)

G:有向无环图

G的结点：随机变量

G的边：结点间的有向依赖

nΘ：全部条件几率分布的参数集合n结点X的条件几率：P(X|parent(X))

2、马尔科夫模型

贝叶斯网络简化造成一条链式模型，Ai+1只与Ai有关，与A1,…,Ai-1无关

隐马尔科夫模型：

3、经过贝叶斯网络判断条件独立：

Tail-to-tail

Head-to-tail

Head-to-head

(C阻断)

4、贝叶斯网络的构建

依次计算每一个变量的D-separation的局部测试结果，综合每一个结点获得贝叶斯网络。

算法过程：

选择变量的一个合理顺序：X1,X2,...Xn

对于i=1到n

o在网络中添加Xi结点

在X1,X2,...Xi-1中选择Xi的父母，使得：

o这种构造方法，显然保证了全局的语义要求：(

问题，若是碰到了混合（离散+连续）的网络怎么办-->信号函数离散化

来自为知笔记(Wiz)