2020李宏毅学习笔记——70 RL Advanced Version 6.Actor-Critic

Asynchronous Advantage Actor-Critic (A3C) 回顾 – Policy Gradient 先对policy gradient进行回顾,只需要记得几个要点: 给定某个state采取某个action的概率 考虑到行动输出的概率和为一,为了保证reward越大的有更大的概率被sample到,需要加上baseline b 考虑到当先action对过去的reward没有影
相关文章
相关标签/搜索