本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。html
静态博弈是每一个玩家同时(而且在不知道其余玩家选择的状况下)作出选择。
动态博弈引进了玩家作出选择的前后次序。
注意:玩家i作出了选择后,玩家j知道玩家i作出了选择,可是不必定知道玩家i作出了什么选择。node
扩展形式博弈的表达结构:函数
博弈树
博弈树用来表示扩展形式博弈。
一个博弈树是一个带前后关系\(x > x'\)的节点集合\(x \in X\)。
\(x > x'\)表示x在x'以前。
每一个节点只有一个父。
前后关系(precedence relation)具备:
传递性(transitive): \(x > x', x' > x'' \implies x > x''\)
不对称性(asymmetric): \(x > x' \implies \ not \ x' > x\)
不完整性(incomplete): 不是每一对x, y有前后次序。
有一个根节点,标记为\(x_0\),是其它全部节点的祖先。
没有子的节点称为末端节点(terminal nodes),表示为\(Z \subset X\)。
末端节点表示为结果,并关联收益函数。
非末端节点被赋予1)一个玩家\(i(x)\),和行动集合\(A_i(x)\),或者2)天然(Nature)。学习
更多的解释,这是为完美信息的定义打铺垫。
若是玩家i的信息集列表都是\(h_i = \{ x \}\),则代表玩家i知道:1) 行动次序, 2)对方的行动是什么。
若是玩家i的信息集列表存在是\(h_i = \{ x, x', \cdots \}\),则代表玩家i知道:1) 行动次序。可是不知道: 1)对方的行动是什么。
这是致使玩家i: 1)性质2:不决定位于博弈树上的那个节点,所以,性质3:\(A_i(x') = A_i(x)\)也必然成立。ui
能够将天然选择理解为掷骰子、抽签、盲牌。spa
扩展形式博弈的纯策略
玩家i的一个纯策略是一个完整计划,描述了在每个信息集合上,玩家i会选择哪一个纯行动。orm
扩展形式博弈的纯策略
玩家i的一个纯策略是影射: \(s_i: H_i \to A_I\),对于每一个信息集\(h_i \in H_i\),有\(s_i(h_i) \in A_i(h_i)\)
\(A_i(h_i)\)表示玩家i的一个信息集对应的行动集合。htm
扩展形式博弈的策略数
\[ |S_i| = m_1 \times m_2 \times \cdots \times m_k \\ where \\ |S_i| \text{ : the number of elements in } S_i \\ m_j \text{ : the number of actions in the j-nd information set} \\ k \text{ : the number of information sets} \]blog
混合策略(mixed strategy)
一个混合策略是一个在各个纯策略上的几率分布。游戏
行为策略(behavioral strategy)
一个行为策略:对每个信息集\(h_i \in H_i\),有一个在各个行动\(a_i(h_i) \in A_i(h_i)\)上的几率分布,表示为
\(\sigma_i : H_i \to \Delta A_i(h_i)\)
\(\sigma_i(a_i(h_i))\) : 玩家i,在信息集\(h_i\)上,选择行动\(a_i(h_i) \in A_i(h_i)\)的几率。
纯策略 vs 混合策略 vs 行为策略
纯策略使用一个行动做为策略结果。
混合策略在玩游戏前是一个行为的几率分布,最终仍是使用了一个纯策略。
行为策略在玩游戏前和玩的时候,都是一个行为的几率分布。
完美回忆博弈(a game of perface recall)
在完美回忆博弈中,每一个玩家都不会忘记以前知道的信息集。
均衡路径(the equilibrium path)
在一个扩展形式博弈中,行为策略的纳什均衡\(\sigma^* = (\sigma_1^*, \cdots, \sigma_n^*)\)。
若是一个信息集有可能到达这个纳什均衡\(\sigma^*\),则称这个信息集在均衡路径上。
若是一个信息集不可能到达这个纳什均衡\(\sigma^*\),则称这个信息集不在均衡路径上。