《强化学习》基于策略的方法

时间 2020-12-30

原文原文链接

基于策略RL和基于值函数RL 直觉不同种类的策略策略梯度形式 LOG技巧 REINFORCE with baseline Actor-Critic Advantage Actor Critic policy based 和 Value based A3C 结合监督学习和强化学习