深度强化学习task03

1. Q-learning **Q-learning **是value-based 的方法。在value-based 的方法里面,我们 learn 的不是 policy,我们要 learn 的是一个critic 。 Critic 并不直接采取行为,它想要做的事情是评价现在的行为有多好或是有多不好。假设有一个actor π ,critic 就是来评价这个 actor 的 policy π 好还是不好
相关文章
相关标签/搜索