Reinforcement learning——an introduction强化学习翻译1.5节

1.5 An Extended Example: Tic-Tac-Toe ​ 为了说明强化学习的一般思想,并将其与其他方法进行对比,我们接下来考虑一个单独的例子。 ​ 以我们熟悉的儿童游戏井字游戏为例。两个玩家轮流在一块3乘3的棋盘上玩。一个玩家玩Xs和另一个Os,直到其中一个玩家通过水平、垂直或对角线排列三个标记而获胜,就像游戏中X玩家所做的那样。如果棋盘上没有一个玩家连续得到3,那么游戏就是平
相关文章
相关标签/搜索