读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈 预备知识

读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈 预备知识

完整信息的动态博弈 预备知识

本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。html

动态博弈(Dynamic Games)

静态博弈是每一个玩家同时(而且在不知道其余玩家选择的状况下)作出选择。
动态博弈引进了玩家作出选择的前后次序。
注意:玩家i作出了选择后,玩家j知道玩家i作出了选择,可是不必定知道玩家i作出了什么选择。node

扩展形式博弈(The Extensive-Form Game)

扩展形式博弈的表达结构:函数

  1. Set of player, N.
  2. Players payoff as a function of outcomes, \(\{ v( \cdot ) \}_{i \in N}\).
  3. Order of moves.
  4. Actions of players when they can move.
  5. The knowledge that players have when they can move.
  6. Probability distributions over exogenous events.
    "exogenous"是指预先肯定的分布几率天然选择(不依赖于玩家的选择)
  7. The structure of the extension-form game represented by 1-6 is common knowledge among all the players.

博弈树(game tree)

  • 博弈树
    博弈树用来表示扩展形式博弈。
    一个博弈树是一个带前后关系\(x > x'\)的节点集合\(x \in X\)
    \(x > x'\)表示x在x'以前。
    每一个节点只有一个父。
    前后关系(precedence relation)具备:
    传递性(transitive): \(x > x', x' > x'' \implies x > x''\)
    不对称性(asymmetric): \(x > x' \implies \ not \ x' > x\)
    不完整性(incomplete): 不是每一对x, y有前后次序。
    有一个根节点,标记为\(x_0\),是其它全部节点的祖先。
    没有子的节点称为末端节点(terminal nodes),表示为\(Z \subset X\)
    末端节点表示为结果,并关联收益函数。
    非末端节点被赋予1)一个玩家\(i(x)\),和行动集合\(A_i(x)\),或者2)天然(Nature)。学习

  • 信息集合列表(the collection of information set of player i)
    玩家i的信息集合(information set)列表,每一个信息集合\(h_i \in H_i\)博弈树中的玩家i运行的部分节点,具备如下属性:
    1. 若是\(h_i = \{ x \}\)是一个单例集合,则运行\(x\)的玩家i知道他位于\(x\)节点上。
    2. 若是\(h_i = \{ x, x', \cdots \}\),则运行\(x\)的玩家i不知道他位于\(x\)节点上仍是位于\(x'\)节点上。
    3. 若是\(h_i = \{ x, x', \cdots \}\),则\(A_i(x') = A_i(x)\)

更多的解释,这是为完美信息的定义打铺垫。
若是玩家i的信息集列表都是\(h_i = \{ x \}\),则代表玩家i知道:1) 行动次序, 2)对方的行动是什么。
若是玩家i的信息集列表存在是\(h_i = \{ x, x', \cdots \}\),则代表玩家i知道:1) 行动次序。可是不知道: 1)对方的行动是什么。
这是致使玩家i: 1)性质2:不决定位于博弈树上的那个节点,所以,性质3:\(A_i(x') = A_i(x)\)也必然成立。ui

  • 完美信息博弈
    一个完整信息博弈中,每一个玩家i的每一个信息集都是单例集合,而且没有天然(Nature)选择,则这个博弈是完美信息博弈。
  • 不完美信息博弈
    一个完整信息博弈中,存在一些信息集不是单例集合,或者有天然(Nature)选择,则这个博弈是完美信息博弈。

能够将天然选择理解为掷骰子、抽签、盲牌。spa

  • 扩展形式博弈的纯策略
    玩家i的一个纯策略是一个完整计划,描述了在每个信息集合上,玩家i会选择哪一个纯行动。orm

  • 扩展形式博弈的纯策略
    玩家i的一个纯策略是影射: \(s_i: H_i \to A_I\),对于每一个信息集\(h_i \in H_i\),有\(s_i(h_i) \in A_i(h_i)\)
    \(A_i(h_i)\)表示玩家i的一个信息集对应的行动集合。htm

  • 扩展形式博弈的策略数
    \[ |S_i| = m_1 \times m_2 \times \cdots \times m_k \\ where \\ |S_i| \text{ : the number of elements in } S_i \\ m_j \text{ : the number of actions in the j-nd information set} \\ k \text{ : the number of information sets} \]blog

  • 混合策略(mixed strategy)
    一个混合策略是一个在各个纯策略上的几率分布。游戏

  • 行为策略(behavioral strategy)
    一个行为策略:对每个信息集\(h_i \in H_i\),有一个在各个行动\(a_i(h_i) \in A_i(h_i)\)上的几率分布,表示为
    \(\sigma_i : H_i \to \Delta A_i(h_i)\)
    \(\sigma_i(a_i(h_i))\) : 玩家i,在信息集\(h_i\)上,选择行动\(a_i(h_i) \in A_i(h_i)\)的几率。

  • 纯策略 vs 混合策略 vs 行为策略
    纯策略使用一个行动做为策略结果。
    混合策略在玩游戏前是一个行为的几率分布,最终仍是使用了一个纯策略。
    行为策略在玩游戏前和玩的时候,都是一个行为的几率分布。

  • 完美回忆博弈(a game of perface recall)
    在完美回忆博弈中,每一个玩家都不会忘记以前知道的信息集。

  • 均衡路径(the equilibrium path)
    在一个扩展形式博弈中,行为策略的纳什均衡\(\sigma^* = (\sigma_1^*, \cdots, \sigma_n^*)\)
    若是一个信息集有可能到达这个纳什均衡\(\sigma^*\),则称这个信息集在均衡路径上。
    若是一个信息集不可能到达这个纳什均衡\(\sigma^*\),则称这个信息集不在均衡路径上。

参照

相关文章
相关标签/搜索