《强化学习》基于策略的方法

基于策略RL和基于值函数RL 直觉 不同种类的策略 策略梯度形式 LOG技巧 REINFORCE with baseline Actor-Critic Advantage Actor Critic policy based 和 Value based A3C 结合监督学习和强化学习
相关文章
相关标签/搜索