深度强化学习——第四章策略梯度

深度强化学习——第四章策略梯度 1. Components 1.1 可控部分——Policy 1.2 轨迹序列——Trajectory 1. Components 在 reinforcement learning 中有 3 个components: 1 actor 1 environment 1 reward function。 下面以机器玩 video game 为例,介绍各component
相关文章
相关标签/搜索