本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记的总结。html
博弈论是关于智能理性决策者的协做和冲突的数学模型的研究。dom
博弈论的目的能够说是研究寻找博弈均衡的方法。
博弈论的直接目标不是找到一个玩家的最佳策略,而是找到全部玩家的最理性策略组合。
咱们称最理性策略组合为均衡。函数
博弈论(也叫逆向博弈论)的另一个做用是机制设计,根据指望的结果,设计一个博弈体系。post
这本书中将博弈论的只是分为四类:学习
静态博弈(static game) vs 动态博弈(dynamic game)
静态博弈指全部玩家同时、独立作出选择。也叫作同时博弈(Simultaneous game)
动态博弈指全部玩家按照次序作出选择。也叫作序贯博弈(Sequential game)、序列博弈。优化
完整信息博弈(Complete information game) and 不完整信息博弈(Incomplete information game)
完整信息博弈是指全部知识被全部玩家都了解,就是成为了公共知识。
不完整信息博弈是指一个玩家不知道其余玩家的部分信息(actions, outcomes, payoffs)。ui
完美信息博弈(Information perfect game) vs 不完美信息博弈(Information imperfect game)
完美信息博弈指一个玩家知道对手作出了选择,而且知道对手的选择是什么。好比:围棋。
不完美信息博弈指一个玩家知道对手作出了选择,可是不知道对手的选择是什么。好比:德州扑克。spa
普通形式博弈(Normal-Form Game) vs 扩展形式博弈(Extensive-Form Game)
博弈的数学化定义方式。
普通形式博弈比较简单,适用描述信息较少的状况,好比:两个玩家的纯策略的静态博弈。
扩展形式博弈用于形式化描述博弈。不管完美信息仍是不完美信息,完整信息仍是不完整信息均可以。
针对不完美信息,支持信息集的概念。
针对不完整信息,支持Nature和类型概念。设计
Subgame-perfect equilibrium
这里主要说perfect这个词,这个词和equilibrium用在一块儿时,经常有精炼(refinement)的意思,表示优化均衡的结果。orm
序贯(sequential)
序贯表示连续的。
信念(beliefs),
玩家i的一个信念就是他的对手们的一个可能的策略组合。
最佳反应(Best Response)
当其余玩家策略已知时,玩家i的优点策略就是其最佳反应。
这是博弈论的中心。理性,序贯理性的意味就是最佳反应。均衡的结果也来自于最佳反应。
最佳反应:对于玩家i,给定其对其余玩家的信念,他会选择在这个信念上对本身最好的行为。
序贯理性(Sequential Rationality)
在博弈中的每一个阶段,玩家都保持理性。
信任系统(a system of beliefs)
对每一个信息集上一个行动的选择几率。见后面的数学定义。
信誉(Reputation)
在博弈论中,玩家为了证实本身的信誉(本身的类型),会选择一种行为,这种行为只会对本身的类型有益,而对其它类型有损失。
玩家2 | |||
---|---|---|---|
m | f | ||
玩家1 | M | 4, 4 | -1, 5 |
F | 5, -1 | 1, 1 |
玩家2 | |||
---|---|---|---|
l | g | ||
玩家1 | L | 0, 0 | -4, -1 |
G | -1, -4 | 1, 1 |
一个策略是一个玩家在博弈中,根据当时的状况,选择其行动的逻辑。
策略有各类各样的。咱们能够想象每一个策略都是若是这样,我就选择行动X,等等。
博弈理论中定义了一些策略。
纯策略(Pure Strategy)
玩家老是选择一个特定的行动。
混合策略(Mixed Strategy)
玩家在选择行动上有一个可能性分布。可是最终会选择一个纯策略。
行为策略(Behavioral Strategy)
玩家在选择行动上有一个可能性分布。通常用于动态博弈的天然选择,因此老是使用这个可能性分布来计算(指望收益等)。
正式的说法是:对每一个信息集指定一个行动上的独立可能性分布。
条件选择策略(Conditional Play)
若是怎样,我会怎样的策略。
奖罚策略(Reward-and-punishment Strategy)
好行为被奖励,坏行为被惩罚的策略。用于多阶段博弈。
残忍触发策略(Grim-trigger strategy)
在第一阶段上选择一个合做(符合子博弈精炼均衡)的行动;
在之后的阶段里,继续选择这个合做行动,当且仅当对方也一直选择合做的行动;不然选择惩罚性的行动。
使用第三方做为信誉机制(Third-Party Institutions as Reputation Mechanisms)
在多阶段博弈中,如何保证协做的一种机制。
玩家1:若是玩家2支付保证金给玩家3(第三方),则信任玩家2,不然不信任。
玩家2:在阶段1,支付保证金给玩家3。在之后的阶段中,若是玩家3一直遵照保证金协议,则继续支付保证金。
若是支付保证金了,则于玩家1合做,不然叛变。
玩家3:(保证金协议)在一个阶段中,若是玩家2合做,则返回保证金给玩家2;不然不返回保证金。
不使用第三方的信誉机制(Reputation Transfers without Third Parties)
在多阶段博弈中,如何保证协做的一种机制。
玩家\(P_1^1\):若是玩家\(P_2^1\)建立了一个惟一的商标,则信任玩家\(P_2^1\),不然不信任。
玩家\(P_2^1\):在阶段1,选择一个惟一的商标,和玩家1合做。而后,把商标以价格\(p^* > 1\)卖给下家(玩家\(P_2^2\))。
玩家\(P_1^t(t>1)\):若是1) 玩家\(P_2^t\)从玩家\(P_2^{t-1}\)手里买了这个惟一的商标,2) 并且这个商标没有被滥用(叛变)过,则信任玩家\(P_2^t\),不然不信任。
玩家\(P_2^t(t>1)\):若是1) 玩家\(P_2^{t-1}\)从玩家\(P_2^{t-2}\)以价格\(p^*\)手里买了这个惟一的商标,2) 并且这个商标没有被滥用(叛变)过,和玩家\(P_1^t(t>1)\)合做。而后,把商标以价格\(p^*\)卖给下家(玩家\(P_2^{t+1}\))。
严格劣势策略(strictly dominated strategy)
一个理性玩家不会选择一个严格劣势策略。
优点策略(Dominant Strategy)
若是有的话,玩家必定会选择优点策略。
帕累托优点(pareto dominate)
重复剔除严格劣势均衡(Iterated elimination of strictly dominated strategies (IESDS))
若是可以找到一个严格劣势策略,将其删除掉,简化了博弈;
而后在简化的博弈中,重复上面的过程,直到有一个优点策略为止。
纳什均衡(Nash equilibrium)
纳什均衡的定义是:在一个策略组合中,若是一个玩家i,当其余全部玩家的策略都不变时(是这个策略组合中的玩家策略),玩家i的策略是个最佳反应。
若是这个条件对每一个玩家都成立,则这个策略组合是一个纳什均衡。
纳什均衡的概念能够从纯策略组合,推广到混合策略(指望收益)、(动态博弈的)行为策略、(不完整信息)贝叶斯纳什均衡。
纳什证实了每一个博弈都至少有一个纳什均衡。
纳什均衡至关于在博弈论中发现了一个新大陆。
一个问题是纳什均衡的解每每不少,所以,有一个精炼的概念,就是咱们经常看到词perfect,其目的是近一步减小纳什均衡的解。
子博弈精炼(Subgame perfection)
子博弈精炼是对纳什博弈的一种优化。
要求对于一个行为策略组合\(\sigma^*\),知足在任何一个合适的子博弈中,这个行为策略组合\(\sigma^*\)都是一个纳什均衡。
逆向概括法(Backward induction solution)
在扩展形式博弈树中,能够形象的看出:
从底层开始,玩家在每一个父节点的子节点集合中,选择出(最佳反应的)其会得到最大收益的行为。每一个父节点会对应一个或者几个最佳反应节点。
将这些节点的收益值做为其父节点的收益值。
重复迭代能够找到全部玩家的一个子博弈精炼均衡。
贝叶斯纳什均衡(Bayesian Nash equilibrium)
能够说是纳什均衡在不完整信息博弈中的扩展。大概的意思是计算了其余玩家类型的分布几率上的收益指望。
注意:子博弈精炼不适用于不完整信息博弈,主要缘由是不知道其余玩家的类型,致使在子博弈上难以肯定收益。
在理解单阶段误差原理以前,咱们先回顾一些背景知识:
那么在多阶段博弈中,在多阶段博弈的扩展形式博弈树(extensive-form game tree)上,一条路径的收益是容易获得的,只要求出每一个阶段博弈的收益总和就能够了。
这样,咱们也能够比较容易计算两条路径中,哪一个更优(通常和折扣率有关)。
问题是:对于玩家i来讲,当其余玩家的策略组合\(\sigma_i\)给定的时,如何找到玩家i的最佳反应(best response)?
注:这里的策略能够是任何策略,好比纯策略,混合策略,条件策略等。
这里边,一个比较麻烦的问题是路径太多。好比:考虑一下一个有五个阶段的博弈。
幸运的是,上面这个骇人的问题能够被简化- 这就是单阶段误差原理。
单阶段误差原理的含义是,当其余玩家的策略组合\(\sigma_i\)给定的时,判断玩家i的一条路径是否最优,只要看这个路径(策略)是否是单点不可改善(one-shot unimprovable)。
所以只要检测和它有一个信息集不一样的那些路径就能够了。
好比:若是一个阶段博弈有A和B两个行动,在一个三阶段的重复博弈中,判断一条玩家的路径(策略)AAA是不是不可改善,只须要对比BAA,ABA和AAB就能够了。
很明显,这个原则只适合于有限多阶段博弈。
其实原书中,对于Prisoner-Revenge Game,计算折扣率,能够当作对单阶段误差原理的过程描述,只不过只是比较两个路径。
下面加上书中的定义和定理,以供参考。
单阶段误差原理表述以下:
一个阶段的不可改善策略一定是最优的。
这意味着,若是在一个阶段博弈中,存在一个单阶段不可改善策略,则不会发生偏离,也就是不存在非纳什均衡的最优策略。
反之,则必定会发生偏离的状况。
单阶段不可改善策略的定义以下:
一个策略\(\sigma_i\)是单阶段不可改善的,则:
不存在信息集\(h_i\)和行动\(a \in A_i(h_i)\)和对应的策略\(\sigma_i^{a, h_i}\)(其为除了信息集\(h_i\)之外,和\(\sigma_i\)都一致的策略),有\(\sigma_i^{a, h_i} > v_i(\sigma_i, h_i)\)。
参照见One-shot deviation principle
\(\Gamma\): 博弈(game)
\(N\): 玩家(player)集合
\(i\): 玩家i, \(i \in N\)
\(X\): 结果(outcome)集合。
\(X_i\): 玩家i的结果(outcome)集合。
\(x_i\): 玩家i的一个结果(outcome)。
\(S\): 策略集合(strategy set), \(S \equiv S_1 \times S_2 \times \cdots \times S_n\).
\(S_i\): 玩家i的策略集合(strategy set)
\(S_{-i}\): 除去玩家i的策略集合(strategy set), \(S_{-i} \equiv S_1 \times S_2 \times \cdots \times \S_{i-1} \times \S_{i+1} \times \cdots \times S_n\).
\(s = (s_1, s_2, \cdots, s_n)\): 表示全部玩家的一个策略组合。
\(s_i\): 玩家i的一个策略(strategy),\(s_i \in S_i\)。
\(s_{-i} = (s_1, s_2, \cdots, s_{i-1}, s_{i+1}, \cdots, s_n)\): 表示除了玩家i,之外的全部玩家的一个策略组合。
\(A_i\): 玩家i的行动集合。
\(a_i\): 玩家i的一个行动,\(a_i \in A_i\)。
\(\mathbb{R}\)AAAAA: 实数。
\(u_i: X \to \mathbb{R}\): 玩家i的收益函数,基于一个结果组合。
\(v_i: s \to \mathbb{R}\): 玩家i的收益函数,基于一个策略组合。
\(H_i\): 玩家i的信息集的集合
\(h_i\): 玩家i的一个信息集,\(h_i \in H_i\)。
\(A_i(h_i)\): 玩家i的一个信息集\(h_i\)对应的行动集合。
\(s_i(h_i)\): 玩家i的一个纯策略。\(s_i(h_i) \in A_i(h_i)\)
\(T\): 多阶段博弈的全部时期。
\(t\): 多阶段博弈的一个时期。
\(p(x_k | a)\): 采起行动a时,产生结果\(x_k\)的几率。
\(E(u(x) | a)\): 采起行动a的指望收益。
\(0 < \delta < 1\): (多阶段博弈中的)折扣率。
策略组合\(\sigma = (\sigma_1, \cdots, \sigma_n)\): 一个动态博弈的混合策略组合(mixed strategies profile)。
\(\Theta\) : 全部玩家的类型空间(type space)集合。
\(\Theta_i = \{ \theta_{i1}, \cdots, \theta_{ik}\}\) : 玩家i的类型空间(type space)。
\(\theta_i\) : 玩家i的类型(type)。
\(\theta_{-i}\) : 除了玩家i之外其余玩家的类型(type)。
\(\phi_i\) : 玩家 i 对其余玩家 type 的信任分布几率。
\(v_i(a; \theta_i)\) : 当在type \(\theta_i\)下,依赖于一个行动组合的玩家收益函数,
\(m_i \in \mathbb{R}\) : 玩家i的资金。
\(Y\) : 全部玩家(机制设计的)结果组合集合。
\(y = (x, m_1, \cdots, m_n)\) : 全部玩家(机制设计的)一个结果组合。
\(\Gamma = \langle A_1, \cdots, A_n, g(\cdot) \rangle\) : 一个机制。
\(\mu\): 信任系统(a system of beliefs),对每一个信息集上一个行动的选择几率。
\[ \mu(x) \in [0, 1] \\ \sum_{x \in h} \mu(x) = 1, \forall h \in H \]