强化学习——(1)基础

1. 基础介绍 在强化学习中有两个东西:Agent和Environment。他们的关系如下: Agent会去观察Environment,会做一些Action,Change the environment,之后会得到reward。 在Alpha Go中,observation为棋盘,action 是落子的位置,Environment为对手,reward为:赢了1,输了-1。因此,机器需要调整mode
相关文章
相关标签/搜索