2020李宏毅学习笔记——70 RL Advanced Version 6.Actor-Critic

时间 2021-01-13

原文原文链接

Asynchronous Advantage Actor-Critic (A3C) 回顾 – Policy Gradient 先对policy gradient进行回顾，只需要记得几个要点：给定某个state采取某个action的概率考虑到行动输出的概率和为一，为了保证reward越大的有更大的概率被sample到，需要加上baseline b 考虑到当先action对过去的reward没有影