什么是熵(Entropy) html
简单来讲,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不肯定和无规则;反之,,熵越小,系统越有序,意味着具备肯定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。git
熵最先来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。github
更多的一些生活中的例子:web
因而从微观看,熵就表现了这个系统所处状态的不肯定性程度。香农,描述一个信息系统的时候就借用了熵的概念,这里熵表示的是这个信息系统的平均信息量(平均不肯定程度)。算法
咱们在投资时经常讲不要把全部的鸡蛋放在一个篮子里,这样能够下降风险。在信息处理中,这个原理一样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。网络
让咱们看一个拼音转汉字的简单的例子。假如输入的拼音是"wang-xiao-bo",利用语言模型,根据有限的上下文(好比前两个词),咱们能给出两个最多见的名字“王小波”和“王晓波 ”。至于要惟一肯定是哪一个名字就难了,即便利用较长的上下文也作不到。固然,咱们知道若是通篇文章是介绍文学的,做家王小波的可能性就较大;而在讨论两岸关系时,台湾学者王晓波的可能性会较大。在上面的例子中,咱们只须要综合两类不一样的信息,即主题信息和上下文信息。虽然有很多凑合的办法,好比:分红成千上万种的不一样的主题单独处理,或者对每种信息的做用加权平均等等,但都不能准确而圆满地解决问题,这样比如之前咱们谈到的行星运动模型中的小圆套大圆打补丁的方法。在不少应用中,咱们须要综合几十甚至上百种不一样的信息,这种小圆套大圆的方法显然行不通。函数
数学上最漂亮的办法是最大熵(maximum entropy)模型,它至关于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥,可是它的原理很简单,咱们天天都在用。说白了,就是要保留所有的不肯定性,将风险降到最小。工具
回到咱们刚才谈到的拼音转汉字的例子,咱们已知两种信息,第一,根据语言模型,wangxiao-bo能够被转换成王晓波和王小波;第二,根据主题,王小波是做家,《黄金时代》的做者等等,而王晓波是台湾研究两岸关系的学者。所以,咱们就能够创建一个最大熵模型,同时知足这两种信息。如今的问题是,这样一个模型是否存在。匈牙利著名数学家、信息论最高奖香农奖得主希萨(Csiszar)证实,对任何一组不自相矛盾的信息,这个最大熵模型不只存在,并且是惟一的。并且它们都有同一个很是简单的形式 -- 指数函数。下面公式是根据上下文(前两个词)和主题预测下一个词的最大熵模型,其中 w3 是要预测的词(王晓波或者王小波)w1 和 w2 是它的前两个字(好比说它们分别是“出版”,和“”),也就是其上下文的一个大体估计,subject 表示主题。spa
咱们看到,在上面的公式中,有几个参数 lambda 和 Z ,他们须要经过观测数据训练出来。最大熵模型在形式上是最漂亮的统计模型,而在实现上是最复杂的模型之一。翻译
咱们上次谈到用最大熵模型能够将各类信息综合在一块儿。咱们留下一个问题没有回答,就是如何构造最大熵模型。咱们已经全部的最大熵模型都是指数函数的形式,如今只须要肯定指数函数的参数就能够了,这个过程称为模型的训练。
最原始的最大熵模型的训练方法是一种称为通用迭代算法 GIS(generalized iterative scaling) 的迭代 算法。GIS 的原理并不复杂,大体能够归纳为如下几个步骤:
1. 假定第零次迭代的初始模型为等几率的均匀分布。
2. 用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布,若是超过了实际的,就把相应的模型参数变小;不然,将它们便大。
3. 重复步骤 2 直到收敛。
GIS 最先是由 Darroch 和 Ratcliff 在七十年代提出的。可是,这两人没有能对这种算法的物理含义进行很好地解释。后来是由数学家希萨(Csiszar)解释清楚的,所以,人们在谈到这个算法时,老是同时引用 Darroch 和Ratcliff 以及希萨的两篇论文。GIS 算法每次迭代的时间都很长,须要迭代不少次才能收敛,并且不太稳定,即便在 64 位计算机上都会出现溢出。所以,在实际应用中不多有人真正使用 GIS。你们只是经过它来了解最大熵模型的算法。
八十年代,颇有天才的孪生兄弟的达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面的改进,提出了改进迭代算法 IIS(improved iterative scaling)。这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即便如此,在当时也只有 IBM 有条件是用最大熵模型。
因为最大熵模型在数学上十分完美,对科学家们有很大的诱惑力,所以很多研究者试图把本身的问题用一个相似最大熵的近似模型去套。谁知这一近似,最大熵模型就变得不完美了,结果可想而知,比打补丁的凑合的方法也好不了多少。因而,很多热心人又放弃了这种方法。第一个在实际信息处理应用中验证了最大熵模型的优点的,是宾夕法尼亚大学马库斯的另外一个高徒原 IBM 现微软的研究员拉纳帕提(Adwait Ratnaparkhi)。拉纳帕提的聪明之处在于他没有对最大熵模型进行近似,而是找到了几个最适合用最大熵模型、而计算量相对不太大的天然语言处理问题,好比词性标注和句法分析。拉纳帕提成功地将上下文信息、词性(名词、动词和形容词等)、句子成分(主谓宾)经过最大熵模型结合起来,作出了当时世界上最好的词性标识系统和句法分析器。拉纳帕提的论文发表后让人们耳目一新。拉纳帕提的词性标注系统,至今仍然是使用单一方法最好的系统。科学家们从拉纳帕提的成就中,又看到了用最大熵模型解决复杂的文字信息处理的但愿。
可是,最大熵模型的计算量仍然是个拦路虎。我在学校时花了很长时间考虑如何简化最大熵模型的计算量。终于有一天,我对个人导师说,我发现一种数学变换,能够将大部分最大熵模型的训练时间在 IIS 的基础上减小两个数量级。我在黑板上推导了一个多小时,他没有找出个人推导中的任何破绽,接着他又回去想了两天,而后告诉我个人算法是对的。今后,咱们就建造了一些很大的最大熵模型。这些模型比修修补补的凑合的方法好很多。即便在我找到了快速训练算法之后,为了训练一个包含上下文信息,主题信息和语法信息的文法模型(language model),我并行使用了20 台当时最快的 SUN 工做站,仍然计算了三个月。因而可知最大熵模型的复杂的一面。
最大熵模型,能够说是集简与繁于一体,形式简单,实现复杂。值得一提的是,在Google的不少产品中,好比机器翻译,都直接或间接地用到了最大熵模型。
讲到这里,读者也许会问,当年最先改进最大熵模型算法的达拉皮垂兄弟这些年难道没有作任何事吗?他们在九十年代初贾里尼克离开 IBM 后,也退出了学术界,而到在金融界大显身手。他们两人和不少 IBM 语音识别的同事一同到了一家当时还不大,但如今是世界上最成功对冲基金(hedge fund)公司----文艺复兴技术公司 (Renaissance Technologies)。咱们知道,决定股票涨落的因素可能有几十甚至上百种,而最大熵方法偏偏能找到一个同时知足成千上万种不一样条件的模型。达拉皮垂兄弟等科学家在那里,用于最大熵模型和其余一些先进的数学工具对股票预测,得到了巨大的成功。从该基金 1988 年创立至今,它的净回报率高达平均每一年 34%。也就是说,若是 1988 年你在该基金投入一块钱,今天你能获得 200 块钱。这个业绩,远远超过股神巴菲特的旗舰公司伯克夏哈撒韦(Berkshire Hathaway)。同期,伯克夏哈撒韦的总回报是 16 倍。
值得一提的是,信息处理的不少数学手段,包括隐含马尔可夫模型、子波变换、贝叶斯网络等等,在华尔街多有直接的应用。因而可知,数学模型的做用。
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中肯定该过程的隐含参数。而后利用这些参数来做进一步的分析,例如模式识别。
是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型。
下面用一个简单的例子来阐述:
假设我手里有三个不一样的骰子。第一个骰子是咱们日常见的骰子(称这个骰子为D6),6个面,每一个面(1,2,3,4,5,6)出现的几率是1/6。第二个骰子是个四面体(称这个骰子为D4),每一个面(1,2,3,4)出现的几率是1/4。第三个骰子有八个面(称这个骰子为D8),每一个面(1,2,3,4,5,6,7,8)出现的几率是1/8。
假设咱们开始掷骰子,咱们先从三个骰子里挑一个,挑到每个骰子的几率都是1/3。而后咱们掷骰子,获得一个数字,1,2,3,4,5,6,7,8中的一个。不停的重复上述过程,咱们会获得一串数字,每一个数字都是1,2,3,4,5,6,7,8中的一个。例如咱们可能获得这么一串数字(掷骰子10次):1 6 3 5 2 7 3 5 2 4
这串数字叫作可见状态链。可是在隐马尔可夫模型中,咱们不只仅有这么一串可见状态链,还有一串隐含状态链。在这个例子里,这串隐含状态链就是你用的骰子的序列。好比,隐含状态链有多是:D6 D8 D8 D6 D4 D8 D6 D6 D4 D8
通常来讲,HMM中说到的马尔可夫链实际上是指隐含状态链,由于隐含状态(骰子)之间存在转换几率(transition probability)。在咱们这个例子里,D6的下一个状态是D4,D6,D8的几率都是1/3。D4,D8的下一个状态是D4,D6,D8的转换几率也都同样是1/3。这样设定是为了最开始容易说清楚,可是咱们实际上是能够随意设定转换几率的。好比,咱们能够这样定义,D6后面不能接D4,D6后面是D6的几率是0.9,是D8的几率是0.1。这样就是一个新的HMM。
一样的,尽管可见状态之间没有转换几率,可是隐含状态和可见状态之间有一个几率叫作输出几率(emission probability)。就咱们的例子来讲,六面骰(D6)产生1的输出几率是1/6。产生2,3,4,5,6的几率也都是1/6。咱们一样能够对输出几率进行其余定义。好比,我有一个被赌场动过手脚的六面骰子,掷出来是1的几率更大,是1/2,掷出来是2,3,4,5,6的几率是1/10。
其实对于HMM来讲,若是提早知道全部隐含状态之间的转换几率和全部隐含状态到全部可见状态之间的输出几率,作模拟是至关容易的。可是应用HMM模型时候呢,每每是缺失了一部分信息的,有时候你知道骰子有几种,每种骰子是什么,可是不知道掷出来的骰子序列;有时候你只是看到了不少次掷骰子的结果,剩下的什么都不知道。若是应用算法去估计这些缺失的信息,就成了一个很重要的问题。这些算法我会在下面详细讲。
×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××
若是你只想看一个简单易懂的例子,就不须要往下看了。
×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××
说两句废话,答主认为呢,要了解一个算法,要作到如下两点:会其意,知其形。答主回答的,其实主要是第一点。可是这一点呢,偏偏是最重要,并且不少书上不会讲的。正如你在追一个姑娘,姑娘对你说“你什么都没作错!”你要是只看姑娘的表达形式呢,认为本身什么都没作错,显然就理解错了。你要理会姑娘的意思,“你赶忙给我道歉!”这样当你看到对应的表达形式呢,赶忙认错,跪地求饶就对了。数学也是同样,你要是不理解意思,光看公式,每每一头雾水。不过呢,数学的表达顶多也就是晦涩了点,姑娘的表达呢,有的时候就彻底和本意相反。因此答主一直认为理解姑娘比理解数学难多了。
回到正题,和HMM模型相关的算法主要分为三类,分别解决三种问题:
1)知道骰子有几种(隐含状态数量),每种骰子是什么(转换几率),根据掷骰子掷出的结果(可见状态链),我想知道每次掷出来的都是哪一种骰子(隐含状态链)。
这个问题呢,在语音识别领域呢,叫作解码问题。这个问题其实有两种解法,会给出两个不一样的答案。每一个答案都对,只不过这些答案的意义不同。第一种解法求最大似然状态路径,说通俗点呢,就是我求一串骰子序列,这串骰子序列产生观测结果的几率最大。第二种解法呢,就不是求一组骰子序列了,而是求每次掷出的骰子分别是某种骰子的几率。好比说我看到结果后,我能够求得第一次掷骰子是D4的几率是0.5,D6的几率是0.3,D8的几率是0.2.第一种解法我会在下面说到,可是第二种解法我就不写在这里了,若是你们有兴趣,咱们另开一个问题继续写吧。
2)仍是知道骰子有几种(隐含状态数量),每种骰子是什么(转换几率),根据掷骰子掷出的结果(可见状态链),我想知道掷出这个结果的几率。
看似这个问题意义不大,由于你掷出来的结果不少时候都对应了一个比较大的几率。问这个问题的目的呢,实际上是检测观察到的结果和已知的模型是否吻合。若是不少次结果都对应了比较小的几率,那么就说明咱们已知的模型颇有多是错的,有人偷偷把咱们的骰子給换了。
3)知道骰子有几种(隐含状态数量),不知道每种骰子是什么(转换几率),观测到不少次掷骰子的结果(可见状态链),我想反推出每种骰子是什么(转换几率)。
这个问题很重要,由于这是最多见的状况。不少时候咱们只有可见结果,不知道HMM模型里的参数,咱们须要从可见结果估计出这些参数,这是建模的一个必要步骤。
问题阐述完了,下面就开始说解法。(0号问题在上面没有提,只是做为解决上述问题的一个辅助)
0.一个简单问题
其实这个问题实用价值不高。因为对下面较难的问题有帮助,因此先在这里提一下。
知道骰子有几种,每种骰子是什么,每次掷的都是什么骰子,根据掷骰子掷出的结果,求产生这个结果的几率。
解法无非就是几率相乘:
1.看见不可见的,破解骰子序列
这里我说的是第一种解法,解最大似然路径问题。
举例来讲,我知道我有三个骰子,六面骰,四面骰,八面骰。我也知道我掷了十次的结果(1 6 3 5 2 7 3 5 2 4),我不知道每次用了那种骰子,我想知道最有可能的骰子序列。
其实最简单而暴力的方法就是穷举全部可能的骰子序列,而后依照第零个问题的解法把每一个序列对应的几率算出来。而后咱们从里面把对应最大几率的序列挑出来就好了。若是马尔可夫链不长,固然可行。若是长的话,穷举的数量太大,就很难完成了。
另一种颇有名的算法叫作Viterbi algorithm. 要理解这个算法,咱们先看几个简单的列子。
首先,若是咱们只掷一次骰子:
看到结果为1.对应的最大几率骰子序列就是D4,由于D4产生1的几率是1/4,高于1/6和1/8.
把这个状况拓展,咱们掷两次骰子:
结果为1,6.这时问题变得复杂起来,咱们要计算三个值,分别是第二个骰子是D6,D4,D8的最大几率。显然,要取到最大几率,第一个骰子必须为D4。这时,第二个骰子取到D6的最大几率是
一样的,咱们能够计算第二个骰子是D4或D8时的最大几率。咱们发现,第二个骰子取到D6的几率最大。而使这个几率最大时,第一个骰子为D4。因此最大几率骰子序列就是D4 D6。
继续拓展,咱们掷三次骰子:
一样,咱们计算第三个骰子分别是D6,D4,D8的最大几率。咱们再次发现,要取到最大几率,第二个骰子必须为D6。这时,第三个骰子取到D4的最大几率是
同上,咱们能够计算第三个骰子是D6或D8时的最大几率。咱们发现,第三个骰子取到D4的几率最大。而使这个几率最大时,第二个骰子为D6,第一个骰子为D4。因此最大几率骰子序列就是D4 D6 D4。
写到这里,你们应该看出点规律了。既然掷骰子一二三次能够算,掷多少次均可以以此类推。咱们发现,咱们要求最大几率骰子序列时要作这么几件事情。首先,无论序列多长,要从序列长度为1算起,算序列长度为1时取到每一个骰子的最大几率。而后,逐渐增长长度,每增长一次长度,从新算一遍在这个长度下最后一个位置取到每一个骰子的最大几率。由于上一个长度下的取到每一个骰子的最大几率都算过了,从新计算的话其实不难。当咱们算到最后一位时,就知道最后一位是哪一个骰子的几率最大了。而后,咱们要把对应这个最大几率的序列从后往前推出来。
2.谁动了个人骰子?
好比说你怀疑本身的六面骰被赌场动过手脚了,有可能被换成另外一种六面骰,这种六面骰掷出来是1的几率更大,是1/2,掷出来是2,3,4,5,6的几率是1/10。你怎么办么?答案很简单,算一算正常的三个骰子掷出一段序列的几率,再算一算不正常的六面骰和另外两个正常骰子掷出这段序列的几率。若是前者比后者小,你就要当心了。
好比说掷骰子的结果是:
要算用正常的三个骰子掷出这个结果的几率,其实就是将全部可能状况的几率进行加和计算。一样,简单而暴力的方法就是把穷举全部的骰子序列,仍是计算每一个骰子序列对应的几率,可是这回,咱们不挑最大值了,而是把全部算出来的几率相加,获得的总几率就是咱们要求的结果。这个方法依然不能应用于太长的骰子序列(马尔可夫链)。
咱们会应用一个和前一个问题相似的解法,只不过前一个问题关心的是几率最大值,这个问题关心的是几率之和。解决这个问题的算法叫作前向算法(forward algorithm)。
首先,若是咱们只掷一次骰子:
看到结果为1.产生这个结果的总几率能够按照以下计算,总几率为0.18:
把这个状况拓展,咱们掷两次骰子:
看到结果为1,6.产生这个结果的总几率能够按照以下计算,总几率为0.05:
继续拓展,咱们掷三次骰子:
看到结果为1,6,3.产生这个结果的总几率能够按照以下计算,总几率为0.03:
一样的,咱们一步一步的算,有多长算多长,再长的马尔可夫链总能算出来的。用一样的方法,也能够算出不正常的六面骰和另外两个正常骰子掷出这段序列的几率,而后咱们比较一下这两个几率大小,就能知道你的骰子是否是被人换了。
HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友天天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我天天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、今天清理房间了!”,那么我能够根据她发的推特推断东京这三天的天气。在这个例子里,显状态是活动,隐状态是天气。
任何一个HMM均可以经过下列五元组来描述:
:param obs:观测序列 :param states:隐状态 :param start_p:初始几率(隐状态) :param trans_p:转移几率(隐状态) :param emit_p: 发射几率 (隐状态表现为显状态的几率)
伪码以下:
states = ('Rainy', 'Sunny') observations = ('walk', 'shop', 'clean') start_probability = {'Rainy': 0.6, 'Sunny': 0.4} transition_probability = { 'Rainy' : {'Rainy': 0.7, 'Sunny': 0.3}, 'Sunny' : {'Rainy': 0.4, 'Sunny': 0.6}, } emission_probability = { 'Rainy' : {'walk': 0.1, 'shop': 0.4, 'clean': 0.5}, 'Sunny' : {'walk': 0.6, 'shop': 0.3, 'clean': 0.1}, }
求解最可能的隐状态序列是HMM的三个典型问题之一,一般用维特比算法解决。维特比算法就是求解HMM上的最短路径(-log(prob),也便是最大几率)的算法。
稍微用中文讲讲思路,很明显,第一每天晴仍是下雨能够算出来:
定义V[时间][今每天气] = 几率,注意今每天气指的是,前几天的天气都肯定下来了(几率最大)今每天气是X的几率,这里的几率就是一个累乘的几率了。
由于第一天个人朋友去散步了,因此第一天下雨的几率V[第一天][下雨] = 初始几率[下雨] * 发射几率[下雨][散步] = 0.6 * 0.1 = 0.06,同理可得V[第一天][天晴] = 0.24 。从直觉上来看,由于第一天朋友出门了,她通常喜欢在天晴的时候散步,因此第一每天晴的几率比较大,数字与直觉统一了。
从次日开始,对于每种天气Y,都有前一每天气是X的几率 * X转移到Y的几率 * Y天气下朋友进行这天这种活动的几率。由于前一每天气X有两种可能,因此Y的几率有两个,选取其中较大一个做为V[次日][天气Y]的几率,同时将今天的天气加入到结果序列中
比较V[最后一天][下雨]和[最后一天][天晴]的几率,找出较大的哪个对应的序列,就是最终结果。
算法的代码能够在github上看到,地址为:
https://github.com/hankcs/Viterbi
运行完成后根据Viterbi获得结果:
Sunny Rainy Rainy
Viterbi被普遍应用到分词,词性标注等应用场景。