最近在写论文过程当中,研究了一些关于几率统计的算法,也从网上收集了很多资料,在此整理一下与各位朋友分享。html
隐马尔可夫模型,简称HMM(Hidden Markov Model), 是一种基于几率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现几率。算法
本文适用于对HMM感兴趣的入门读者,为了让文章更加通俗易懂,我会多阐述数学思想,尽量的撇开公式,撇开推导。结合实际例子,争取作到雅俗共赏,童叟无欺。没有公式,就没有伤害。安全
建议看一下吴军博士的《数学之美》,里面有简单的说明。而后看下HMM的三个计算问题和对应的解答,你会发现基本就是动态规划的思想。网络
本文非彻底原创,部份内容来自互联网,本身在此基础上加入了我的的理解,若有侵权还请告知! 机器学习
假设我手里有三个不一样的骰子:学习
如今开始掷骰子:lua
不停的重复上述过程,咱们会获得一串数字,例如咱们可能获得这么一串数字(掷骰子10次):3d
1 6 3 5 2 7 3 5 2 4视频
咱们称这串数字叫作可见状态链。htm
在隐马尔可夫模型中,不只仅有这么一串可见状态链,还有一串隐含状态链。在这个例子里,这串隐含状态链就是你用的骰子的序列。好比,隐含状态链有多是:
D6 D8 D8 D6 D4 D8 D6 D6 D4 D8
通常来讲,HMM中说到的马尔可夫链实际上是指隐含状态链,由于隐含状态(骰子)之间存在转换几率(transition probability)。
在这个例子里,D6的下一个状态是D4,D6,D8的几率都是1/3。D4,D8的下一个状态是D4,D6,D8的转换几率也都同样是1/3。咱们其实能够随意设定转换几率的。好比,咱们能够这样定义:D6后面不能接D4,D6后面是D6的几率是0.9,是D8的几率是0.1。这样就是一个新的HMM。
一样的,尽管可见状态之间没有转换几率,可是隐含状态和可见状态之间有一个几率叫作输出几率(emission probability)。就咱们的例子来讲,六面骰(D6)产生1的输出几率是1/6。产生2,3,4,5,6的几率也都是1/6。咱们一样能够对输出几率进行其余定义。好比,我有一个被赌场动过手脚的六面骰子,掷出来是1的几率更大,是1/2,掷出来是2,3,4,5,6的几率是1/10。
其实对于HMM来讲,若是提早知道全部隐含状态之间的转换几率和全部隐含状态到全部可见状态之间的输出几率,作模拟是至关容易的。但在实际运用中,每每会缺失一部分信息:有时候你知道骰子有几种,每种骰子是什么,可是不知道掷出来的骰子序列;有时候你知道骰子序列,剩下的什么都不知道。如何应用算法去估计这些缺失的信息,就成了一个颇有研究价值的问题。这些算法我会在下面详细讲。
和HMM模型相关的算法主要分为三类,分别解决三种问题:
问题阐述完了,下面就开始说解法。
其实这个问题实用价值不高。因为对下面较难的问题有帮助,因此先在这里提一下。
知道骰子有几种,每种骰子是什么,每次掷的都是什么骰子,给出一串数字序列,求产生这个序列的几率。
解法无非就是几率相乘:
这里我说的是第一种解法,解最大似然路径问题。
举例来讲,我知道我有三个骰子,六面骰,四面骰,八面骰。我也知道我掷了十次的结果(1 6 3 5 2 7 3 5 2 4),我不知道每次用了哪一种骰子,我想知道最有可能的骰子序列。
其实最简单而暴力的方法就是穷举全部可能的骰子序列,而后依照第零个问题的解法把每一个序列对应的几率算出来。而后咱们从里面把对应最大几率的序列挑出来就好了。若是马尔可夫链不长,固然可行。若是长的话,穷举的数量太大,就很难完成了。
另一种颇有名的算法叫作Viterbi algorithm. 要理解这个算法,咱们先看几个简单的列子。
首先,若是咱们只掷一次骰子:
看到结果为1,对应的最大几率骰子序列就是D4,由于D4产生1的几率是1/4,高于1/6和1/8.
把这个状况拓展,咱们掷两次骰子:
结果为1,6,这时问题变得复杂起来,咱们要计算三个值,分别是第二个骰子是D6,D4,D8的最大几率。显然,要取到最大几率,第一个骰子必须为D4。这时,第二个骰子取到D6的最大几率是
一样的,咱们能够计算第二个骰子是D4或D8时的最大几率。咱们发现,第二个骰子取到D6的几率最大。而使这个几率最大时,第一个骰子为D4。因此最大几率骰子序列就是D4 D6。
继续拓展,咱们掷三次骰子:
一样,咱们计算第三个骰子分别是D6,D4,D8的最大几率。咱们再次发现,要取到最大几率,第二个骰子必须为D6。这时,第三个骰子取到D4的最大几率是
同上,咱们能够计算第三个骰子是D6或D8时的最大几率。咱们发现,第三个骰子取到D4的几率最大。而使这个几率最大时,第二个骰子为D6,第一个骰子为D4。因此最大几率骰子序列就是D4 D6 D4。
写到这里,你们应该看出点规律了,这其实就是几率DP问题(Dynamic Programming with Probability)。既然掷骰子一二三次能够算,掷多少次均可以以此类推。咱们发现,咱们要求最大几率骰子序列时要作这么几件事情:
若是你怀疑本身的六面骰被赌场动过手脚了,有可能被换成另外一种六面骰,这种六面骰掷出来是1的几率更大,是1/2,掷出来是2,3,4,5,6的几率是1/10。怎么办?答案很简单,算一算正常的三个骰子掷出一段序列的几率,再算一算不正常的六面骰和另外两个正常骰子掷出这段序列的几率。若是前者比后者小,你就要当心了。好比说掷骰子的结果是:
要算用正常的三个骰子掷出这个结果的几率,其实就是将全部可能状况的几率进行加和计算。一样,简单而暴力的方法就是把穷举全部的骰子序列,仍是计算每一个骰子序列对应的几率,可是这回,咱们不挑最大值了,而是把全部算出来的几率相加,获得的总几率就是咱们要求的结果。这个方法依然不能应用于太长的骰子序列(马尔可夫链)。咱们会应用一个和前一个问题相似的解法,只不过前一个问题关心的是几率最大值,这个问题关心的是几率之和。解决这个问题的算法叫作前向算法(forward algorithm)。首先,若是咱们只掷一次骰子:
看到结果为1.产生这个结果的总几率能够按照以下计算,总几率为0.18:
把这个状况拓展,咱们掷两次骰子:
看到结果为1,6.产生这个结果的总几率能够按照以下计算,总几率为0.05:
继续拓展,咱们掷三次骰子:
看到结果为1,6,3.产生这个结果的总几率能够按照以下计算,总几率为0.03:
一样的,咱们一步一步的算,有多长算多长,再长的马尔可夫链总能算出来的。用一样的方法,也能够算出不正常的六面骰和另外两个正常骰子掷出这段序列的几率,而后咱们比较一下这两个几率大小,就能知道你的骰子是否是被人换了。
以上例子是用HMM对掷骰子进行建模与分析。固然还有不少HMM经典的应用,能根据不一样的应用需求,对问题进行建模。
可是使用HMM进行建模的问题,必须知足如下条件:
在知足条件的状况下,肯定问题中的隐性状态是什么,隐性状态的表现可能又有哪些。
HMM适用的问题:真正的状态(隐态)难以被估计,而状态与状态之间又存在联系。
语音识别问题就是将一段语音信号转换为文字序列的过程。
在个问题里面,隐性状态就是: 语音信号对应的文字序列。而显性状态就是: 语音信号。
MM模型的学习(Learning): 语音识别的模型学习和上文中经过观察骰子序列创建起一个最有可能的模型不一样。
语音识别的HMM模型学习有三个步骤:
因而可知,其原理和上面的破解骰子序列是同样的。
手写识别(HandWriting Recognition)是指将在手写设备上书写时产生的有序轨迹信息化转化为文字的过程。
原理和语音差很少,只不过手写识别的过程是将字的图像当成了显性序列。
总所周知,在汉语中,词与词之间不存在分隔符,词自己也缺少明显的形态标记(英文中,词与词之间用空格分隔,这是自然的分词标记)。所以,中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序。
例如,英文句子:you should go to kindergarten now. 自然的空格已然将词分好,只需去除其中的介词“to”便可;而“你如今应该去幼儿园了”这个句子表达一样的意思却没有明显的分隔符,中文分词的目的是获得“你/如今/应该/去/幼儿园/了”。那么如何进行分词呢?
主流的方法有三种:
更多中文分词相关介绍,参考个人另外一篇博客:一周乱谈 - 中文分词
拼音输入法,是一个估测拼音字母对应想要输入的文字(隐性状态)的过程(好比, ‘pingyin’ -> 拼音)。
很明显,拼音输入法的观察序列就是用户的输入拼音,好比”wo shi zhong guo ren”,咱们要推测出用户想要输入的是“我 是 中 国 人”,这是个很典型的隐马尔科夫模型。
如上图所示,咱们根据给定的观察对象O,得到一个几率最大的序列S*。咱们所知道的数据有:
咱们要求的是S*各个状态的连续几率最大的那个序列,和上面同理。
有关隐马尔可夫模型的教学视频,请参看coursera课程:Lecture 17 - 隐马尔可夫模型
隐马尔可夫模型是可用于标注问题的统计学习的模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。
本文以一个例子为主线,用理论结合实际的方法讲解了HMM的基本原理和三个基本问题,以及三个问题的求解方法。最后,综述了一些HMM在人类的行为分析、网络安全和信息抽取中的最新应用。
1. 数学之美 - 吴军 - 隐马尔科夫模型
2. 统计学习方法 - 李航 - 隐马尔科夫模型
3. HMM学习最佳范例一:介绍 - 52nlp
4. HMM学习最佳范例二:生成模式 - 52nlp
5. POS - Stanford NLP