8.Actor-Critic+A2C+A3C

目录 深度强化学习目录 简介 之前讲了Policy-based方法,讲了Value-based方法,现在来讲一下结合两种方法的Actor-Critic。 符号 r t r_t rt​:t时刻的即时奖赏。 R θ R_\theta Rθ​:使用参数 θ \theta θ时,某轮游戏的累积奖赏。 G t G_t Gt​:时间从t到结束的累积奖赏,由于t时刻的奖励是采取行动后t+1时刻才拥有的,所以 G
相关文章
相关标签/搜索