强化学习笔记之Critic(三)

前面介绍了Actor的策略,接下来介绍Critic。 1. 什么是critic critic就是一个神经网络,以状态s为输入,以期望的reward为输出。 1.1 Actor和Critic的区别 Actor是以s为输入,输出对应的action和其概率。 Criti则是以s为输入,输出对应的reward期望值。 1.2 为什么要有critic 在前面介绍Actor时,我们定义的用来更新θ的 ▽ R
相关文章
相关标签/搜索