李宏毅强化学习笔记【3.Actor-Critic】

复习策略梯度policy gradient 计算在某一个state,采取action a的概率。到游戏结束为止,获得多少reward。 G很不稳定。除非sample很多。   复习Q-learning 用期望代替sample,value-based 第一种方法算V,用π和环境做互动,看到s之后,累计reward期望值是多少。 第二种方法,用π,当再s采取a,累计reward是多少。 TD比较稳,M
相关文章
相关标签/搜索