从随机过程的熵率和马尔科夫稳态过程引出的一些思考 - 人生逃不过一场马尔科夫稳态

时间 2019-11-05

原文原文链接

1. 引言

0x1：人生就是一个马尔科夫稳态

每一秒咱们都在作各类各样的选择，要吃青菜仍是红烧肉、看电影仍是看书、跑步仍是睡觉，咋一看起来，每个选择都是随机的，而人生又是由无数个这样的随机选择组成的结果。从这个前提往下推导，彷佛能够得出一个结论，即人生是无常的，将来是不可预测的。但事实真的是如此吗？html

之前的老人流行说一句话，三岁看小，七岁看老。这彷佛是一句充满迷信主义色彩的俗语，但其实其中暗含了很是质朴而经典的理论依据，即随机过程无论其转移几率分布如何，随着时序的增大，最终会收敛在某个稳态上。用人话说就是：人在七岁时，其核心性格会定型，在从此的一辈子中，无论其经历了什么，最终都会异曲同工，到达同一我的生结局。算法

如今很流行一句话叫，性格决定命运。这句话从不少不一样的学科中能够获得不一样的解释，例如现代心理学会说性格的本质就是潜意识，而潜意识影响全部的思想和行为，进而影响了命运。社会行为学会说性格决定了你的人际网络拓朴结构与网络信息交互率等因素，而成功的人每每是那种同时占据了多个重要结构洞的关键人物，例如国家领导人或者公司高层。用信息论马尔柯夫随机过程的理论来解释就说，每一个人的几率转移函数在很小的时候就会基本定型，对于每一个人来讲，出生、天赋这些都不是相当重要的因素，而相反，决定一我的最终能获得多少成就的决定因素是你的n，也即你能在多大程度上延伸生命的长度，生命周期n越长，就越容易收敛到一个马尔科夫稳态，而只要你的底层性格（几率转移函数）足够优秀，这个稳态通常也不会差到哪里去。用现代育儿学的主流观点就是，对于小孩的教育，素质教育并无那么重要，而相反，应该更注重性格和人格塑造上的培养。用一句很俗的话来讲，就是”起点并不重要，长久的坚持才重要“。网络

那么这篇文章中，笔者将尝试从信息论中随机过程的相关讨论，来逐步分析和论证一下上述这段人生道（糟）理（粕）的底层逻辑。函数

0x2：非i.i.d.独立同部分状况下随机过程的熵如何分布

在以前的文章中，咱们讨论了渐进均分性（AEP），AEP代表在平均意义下使用nH(X)比特足以描述n个i.i.d.独立同分布的随机变量。可是，若是随机变量不独立，尤为是随机变量成为平稳过程时，状况又如何呢？优化

在本文中，咱们将证实，对于任意的随机过程，熵H(X₁，X₂，...，X_n)随n以速率H(X)（渐进地）线性增长（和i.i.d.同样），这个速率称为过程的熵率。事实上，在物理和计算机科学中，非i.i.d.才是占主流的现象，不少事物现象的内部原子状态之间都不是彼此独立的，例如语音序列是上下文依赖关联的，文本序列是先后文文法关联的等等。url

Relevant Link: spa

《信息论基础》阮吉寿著 - 第四章

2. 马尔可夫链

0x1：随机过程

马尔可夫链属于随机过程的一种，所以咱们先从随机过程开始讨论起。code

1. 随机过程的形式化定义

随机过程{X_i}是一个带下标的随机变量序列。通常容许变量间具备任意的相关性。刻画一个过程须要知道全部有限的联合几率密度函数：htm

例如N次伯努利实验获得的二项分布序列，就是一个随机过程，当参数p肯定时，该随机过程知足一个肯定的几率分布函数公式。blog

2. 平稳随机过程

若是随机变量序列的任何有限子集的联合分布关于时间的下标的位移不变，即对于每一个n和位移l，以及任意的x₁，x₂，...，x_n∈X，均知足：

，则称该随机过程是平稳的。

平稳过程也能够叫作稳态系统，这是一个很是重要的概念，在很是多学科和交叉学科中都有相关的概念和理论涉及：

系统科学：系统或者过程（Process theory）的稳态是指其行为的变数（称为状态变数）不随时间而变化。
热力学
经济学：稳态经济（Steady state economy）是指一个国家（或城市、区域或全世界）经济在一个稳定的规模，能够有稳定的人口以及稳定的消费，并且是在其环境承载力的范围内。
工程学
通讯："时不变稳态系统"

对于许多系统，系统启动后须要一段时间才会进入稳态。进入稳态前的状态称为暂态或启动阶段。例如流过管子的流体会呈现稳态，这表示有持续固定的流体经过，而正在装水的水槽则是暂态，由于水的体积仍随时间而变化。

系统经常是以渐近的方式进入稳态。若系统没法进入稳态，反而发散，这称为不檼定的系统。

3. 马尔科夫过程：一种非独立随机过程

一个非独立随机过程的简单例子是随机序列中的每一个随机变量仅依赖于它的前一个随机变量，而条件独立于其余更前面的全部随机变量，这样的过程称为马尔科夫过程，或马尔柯夫链。

此时，随机变量的联合几率密度函数能够写成：

4. 时不变马尔科夫过程：一种非独立平稳随机过程

若是条件几率不依赖于n，即对n=1，2，....，有：

，则称马尔柯夫链是时间不变的。

若无特别说明，总假定马尔柯夫链是时间不变的，在大多数应用场景中，咱们都假定马尔柯夫链是时间不变的。

0x2：马尔柯夫链

1. 马尔柯夫链的表征定义

若是{X_i}为马尔柯夫链，则称X_n为n时刻的状态。

一个时间不变的马尔柯夫链彻底由其初始状态和几率转移矩阵P=[P_ij]所表征。其中，i，j∈{1，2，....，m}

2. 马尔柯夫链性质

若马尔柯夫链能够从任意状态通过有限步转移到另外一个任意状态，且其转移几率为正，则称此马尔柯夫链是不可约的。
若是从一个状态转移到它自身的不一样路径长度的最大公因子为1，则称此马尔柯夫链是非周期的。

3. 平稳马尔柯夫链及其收敛性

若是在时刻n，随机变量的几率密度函数为p(x_n)，那么在n+1时刻，随机变量的几率密度函数为：

若在n+1时刻，状态空间上的分布于在n时刻的分布相同，则称此分布为平稳分布。

若是马尔科夫链的初始状态服从平稳分布，那么该马尔柯夫链为平稳过程。

如有限状态马尔柯夫链是不可约和非周期的，则它的平稳分布惟一，从任意的初始分布出发，当n->∞时，X_n的分布一定趋向于此平稳分布。

Relevant Link:

《信息论基础》阮吉寿著

3. 熵率

0x1：熵率形式化定义

若是给定一个长度为n的随机变量序列，则该序列随着n增加而增加的熵的速度，称为熵率。

当以下极限存在时，随机过程{X_i}的熵率定义为：

0x2：熵率的形象化举例理解

熵率是一个纯信息论概念，比较抽象，咱们这小节用具体的例子来讲明熵率的现实意义。

以打字机为例，假定一台打字机键盘上有m个按键，即该打字机可输出m个等可能的字母。由此打字机可产生长度为n的mⁿ个序列，而且都等可能出现。

所以，，熵率为H(X) = logm bit/字符。

直观上能够这么理解，由于字符表长度 |X| = m，根据熵的基本性质，H(X) <= log^|X|，因此该打字机每打出一个字，至多产生了log^m的不肯定性，熵率衡量的是理论上随机过程每一步产生的最大熵。

上升到抽象思考模式，将打字机打出的字符序列看做是一个随机变量序列X₁，X₂，...，X_n，此时有下式：

及打字机对应的随机过程的熵率为H(X₁)，即打出一个字产生的熵值。

0x3：随机过程熵率极限收敛定理

咱们定义随机过程熵率的两个公式

上面二式反映了熵率概念的两个不一样方面，第一个量指的是n个随机变量的每一个字符熵。第二个量指在已知前面n-1随机变量的状况下最后一个随机变量的条件熵。

对于平稳过程来讲，以上二者的极限均存在且相等，即，咱们分别来讨论。

1. 随机过程条件熵率极限收敛定理

对于平稳随机过程，随n递减且存在极限

证实：

其中：

条件做用使熵减少这个性质获得不等号，即新信息的加入会引入熵的减小；
由随机过程平稳性获得等号；

所以，是非负且递减的数列，故其极限存在。

2. 随机过程熵率收敛于条件熵率定理

上一小节证实了随机过程的条件熵率收敛于某个肯定值，如今证实随机过程的熵率也收敛于一样的值。

借助数学分析中cesaro均值的定理：

若a_n -> a，且，则b_n -> a。

因为序列{a_k}中的大部分项最终趋于a，那么，b_n是{a_k}的前n项的平均，也将最终趋于a。

基于cesaro均值定理，咱们来看随机过程的熵率公式，由联合熵的链式法则有下式：

上式中，随机过程的熵率为条件熵的时间平均，若是条件熵趋于极限，则随机过程的联合熵率也一样趋近于一样的极限值，即：

3. 熵率对平稳遍历过程的平均描述长度表征的泛化能力

研究随机过程熵率的重要意义体如今平稳遍历过程的AEP，事实上，对任意的遍历过程，都有下式：

以几率1收敛，即随机过程恒收敛。

咱们能够定义典型集，能够证实典型集的几率近似为1，且大约有2^nH(X)个长度为n的典型序列，其每一个序列出现的几率大约为2^-nH(X)。

因此，大约使用nH(X)比特可表示长度为n的典型序列。这体现出熵率能够表征平稳遍历过程的平均描述长度的重要意义。

0x4：马尔可夫链熵率收敛

1. 马尔柯夫链熵率收敛定理形式化描述

对于平稳的马尔柯夫链，熵率为

其中的条件熵能够根据给出的平稳分布计算获得，注意到，平稳分布μ为下列方程组的解：

下面形式化描述马尔柯夫链熵率收敛定理。

设{X_i}为平稳马尔柯夫链，其平稳分布为μ，转移矩阵为P，则熵率为：

2. 两状态马尔柯夫链熵率收敛具体例子

考虑两状态的一个马尔柯夫链，其几率转移矩阵为：

以下图所示：

设向量μ表示平稳分布，其份量分别为状态1和状态2的几率。经过解方程μP = μ，便可求得平稳几率，或者更简便地，利用平衡几率的方法求得。

对于平稳分布，穿越状态转移图中任意割集的网络几率流必为0。将此结论应用于上图，便可得：

因为μ1+μ2=1，则平稳分布为

若是该马尔柯夫链的初始状态服从平稳分布，则导出的过程是平稳的，在n时刻的状态X_n的熵为

根据平稳遍历马尔柯夫链的熵率收敛定理，上式两状态马尔柯夫链的熵率为：

经过这个例子，能够看到：若马尔柯夫链是不可约的且非周期的，那么该马尔柯夫链存在状态空间谁给你的惟一平稳分布，而且给定任意的初始分布，当n->∞时，分布必趋向于此平稳分布。因为熵率是依据序列的长期行为定义的，那么在此情形下，即便初始分布不是平稳分布，熵率也最终会收敛。

3. 加权图上随机游动的熵率：马尔柯夫链熵率收敛的另外一个例子

这个小节，咱们继续经过一个具体的例子来深刻体会马尔柯夫链的渐进收敛性，理解什么是稳态随机过程。

考虑下面这个连通图上的随机游动：

假定图有m个标记{1，2，....，m}的节点，其中链接节点 i 和 j 的边权重为 W_ij >= 0。假定此图是无向的，若节点 i 和 j 没有链接边，则设W_ij = 0。

如今有一个粒子在图中由一个节点到另外一个节点做随机游动，设随机游动的轨迹为一个序列 {X_n}，X_n∈{1，2，...，m}，若X_n=i，那么下一个顶点 j 只多是与节点 i 相连的全部节点中的一个，且转移几率为链接 i 和 j 的边权重所占全部与 i 相连的边的权重之和的比例。所以

设

为链接节点 i 的全部边权重总和，再设

为图中全部的边权重总和，因此有

，由于该图是无向图，因此左式中全部节点都被重复多算了一次。

对于这种状况，平稳分布有一个很是简单的形式，将此马尔柯夫链的平稳分布设定为节点 i 的几率是链接 i 的各边权重总和占图中全部的边权重总和的比例，即平稳分布为：

经过验证可证明上述分布确为平稳分布，此时有：

所以，状态 i 的平稳几率是链接节点 i 的各边权重总和占图中全部的边权重总和的比例。此平稳分布是个局部性质：由于它仅仅依赖于总权重以及与该节点相连的全部的边权重之和，于是若改变图中某些部分的权重，但保持总权重为常数，平稳分布不会有所改变。

经过计算，熵率为：

熵率的这个答案是如此的简洁，显然，这个熵率是平均转移熵。这再次体现了，平稳马尔柯夫链的稳态和初始状态无关，而仅仅和几率转移矩阵有关。

同时但愿读者朋友注意的是，随机游动也是很是普适泛化的抽象概念，在工程中大量的实际现象均可以抽象为一个随机游动过程，例如：

某个系统指标随时间的不断变化，其变更的范围区间就能够抽象为一个随机游动
一段文本（例如waf url检测），将其看作char或者token序列，其不一样char/token之间的转换就能够抽象为一个随机游动，也有不少地方直接叫马尔柯夫链

笔者思考：另外一方面也要注意，在实际工程中应用随机游动渐进收敛理论的时候，要注意考察当前面对的问题是否符合”稳态马尔柯夫过程“这个大前提，即状态几率转移矩阵是否随时间保持不变这个大前提，不少时候，实际问题是一个复杂混沌系统，而状态转移矩阵也是随时间不断变化的，这些都会致使马尔柯夫链的应用失败。不少时候，不是算法和理论错了，是假设前提错了。

Relevant Link:

《信息论基础》阮吉寿著 - 第四章

4. 从热力学第二定律引出马尔柯夫链中不一样状态的熵函数之间的关系

0x1：从热力学第二定律中导出的四条关于系统熵的结论

热力学第二定律是物理学中的基本定律之一，代表孤立系统的熵老是不减的。在统计热力学中，熵一般定义为物理系统的微观状态数的对数值，全部单元状态都是等可能发生的，这与熵的概念是一致的。

咱们将物理孤立系统建模为一个马尔柯夫链，其中状态的转移规律由控制该系统的物理定律所决定。对于这样的系统，咱们能够得到关于热力学第二定律的4种不一样解释。

1. 马尔柯夫链状态空间上不一样几率分布之间的相对熵随状态n递减

设μ_n和μ_n^'为n时刻时，马尔柯夫链状态空间上的两个几率分布，而μ_n+1和μ_n+1^'是时刻n+1时的相应分布。令对应的联合几率密度分别记为p和q，因而有

其中表示马尔柯夫链的几率转移函数。由相对熵的链式法则，可得两种展开方式：

因为p和q都由该马尔柯夫链推导而来，因此条件几率密度函数和都等于。

因而，此时，利用的非负性，可得：

或：

所以，对于任何马尔柯夫链，两个几率密度函数间的距离随时间n递减。

2. 马尔柯夫链n时刻的状态分布和平稳分布之间的相对熵随状态n递减

随着时间的流逝，状态分布将会越来越接近于每一个平稳分布。序列为单调降低的非负序列，其极限一定存在。

3. 若平稳分布是均匀分布，则系统熵不断增长

熵定理告诉咱们，均匀分布是最大熵分布，因此若是马尔柯夫链的稳态是均匀分布，则整个系统将逐渐收敛到这个最大熵分布，在收敛的过程当中，总体系统熵也在不断增大。

若是平稳分布为均匀分布，则能够将n状态下几率分布和平稳分布之间的相对熵表示以下：

此时，相对熵的单调递减蕴含了总体系统熵的单增性（和max之间的距离逐渐减少，正说明了当前值在不断增大）。这个解释和统计热力学联系很是紧密，其中全部微观状态都是等可能发生的

4. 平稳马尔科夫过程当中初始状态对当前状态的条件熵递增

对于平稳的马尔科夫过程，条件熵H(X_n|X₁)随n递增。若是马尔科夫过程是平稳的，则将来状态的条件不肯定性是递增的。证实过程以下：

0x2：关于马尔科夫平稳分布和熵增定理的一些延伸思考

笔者思考1：用经济学理论来解释上面的不等式，假定加拿大和英格兰对于财产从新分配都采用相同的税收体系。设μ_n和μ_n^'分别表明两个国家的私人财产分布，那么由上述不等式可得一个结论，这两个国家之间的私人财产分布的相对熵距离，将随时间而递减。假以时日，加拿大和英格兰的财产分布状况将越来越类似。

笔者思考2：从博弈论的角度来解释上面的不等式，在竞争理论中，博弈论告诉咱们，追上对手最好的方式就是和对手保持一致，对手作什么，你也作什么。

一个具体形象化的解释就是，若是你和你的对手在一个单人帆船比赛中，你和你的对手之间有一段100米的差距，如今你须要找到一种策略，能稳定地缩短你和对手之间的距离。最好的策略是这样的，你须要牢牢盯着你的对手的一举一动，他作什么你也作什么，他左转你也左转，他右转你也右转，他落水你也落水，只要你100%地保持和他一致，那么你和他之间的距离就会逐渐减小。听起来很匪夷所思，但实际是理论合理的。但这其实只是一种理论策略，在实际状况中，仅仅追上竞争对手是没有用的，一味地模仿是没法真正作到行业老大的，相反，一个好的竞争者须要不断优化本身的几率转移函数，使本身的几率转移函数因为你的竞争对手，作到了这一步后，经过n步的收敛后，你最终达到的稳态才有可能超过你的对手。前面说的模仿策略只适合于一些特殊场景，例如你和对手之间实力差距过大须要先进行模仿，或者说你纯粹是为了打压对手，经过模仿将对手的某一维度（例如创意）的优点磨平，而后经过本身在另外一个维度的优点（例如资金）来碾压对手，例如TX的游戏模仿策略。

Relevant Link:

《信息论基础》阮吉寿著 - 第四章

5. 马尔柯夫链的函数

在以前的文章中，咱们从几率论的角度讨论了HMM（隐马尔可夫模型），这个章节，咱们从新从信息论中马尔科夫链函数的角度，从新审视一下HMM的思想原理。

0x1：马尔柯夫链函数的收敛性讨论

设X₁，X₂，...，X_n，....为平稳马尔柯夫链，是一个随机过程，其中每一项均为原马尔柯夫链中对应状态的函数。

如今问题来了，此时熵率H(Y)是多少？Y序列的收敛性性和收敛值如何评估和计算？

有一个好的想法是，若是给出上界和下界，且它们分别从上下收敛于同一极限，这样，当上界和下界差异较小时，咱们能够停止计算而得到极限的一个很好的估计。

已知单调地收敛于H(Y)，对于下界，将使用下面这个引理

证实过程以下：

其中：

（a）成立是由于Y₁为X₁的函数
（b）成立可由X的马尔科夫性获得
（c）成立因为Yi为Xi的函数
（d）成立因为条件做用使熵减少
（e）成立根据马尔柯夫链平稳性获得

因为对任意的k，不等式都成立，故两边取极限不等式亦成立，因此：

下面引理代表，由上述上界和下界所构成的区间长度是递减的，也即渐进收敛。

0x2：隐马尔可夫模型（HMM）

综合上面定理和引理，咱们有以下定理：

若X₁，X₂，...，X_n构成平稳的马尔柯夫链，且，那么

且：

通常地，给定马尔科夫过程X₁，X₂，...，X_n，由此定义新过程Y₁，Y₂，...，Y_n，其中每一个Y_i服从p(y_i | x_i)，且条件独立于其余全部的，即

这样的过程称为隐马尔可夫模型（HMM）。

Relevant Link:

《信息论基础》阮吉寿著 - 第四章