policy gradientss 强化学习

policy gradient 是一种基于  整个episode更新的算法,它直接对policy进行更新,能够适应连续的动作空间 算法伪代码   log(Policy(s,a))是更新的幅度,Vt是表示这个更新是好还是坏
相关文章
相关标签/搜索