【RL China 2020笔记】博弈论基础

非完美信息博弈 一些历史动作并不是对所有玩家已知(invisible) 例如图中的节点b和c,这两个节点对于玩家2来说是不可区分的。 为了描述对于某个玩家来说一系列不可区分的状态,把这些一系列不可区分的状态定义为信息集。 马尔可夫博弈(随机博弈) 博弈定义 状态空间 S S S 动作空间 A = A 1 × A 2 × . . . × A n A = A_1 \times A_2 \times .
相关文章
相关标签/搜索