TD Learning,SARSA,Q Learning

最近在读一篇增强学习的综述 DEEP REINFORCEMENT LEARNING : AN OVERVIEW 发现里边介绍SARSA时,伪代码是错误的。 1.TD Learning 2.SARSA 错误就在于,sarsa算法的下一个动作在这次更新时就已经确定了。所以需要在step迭代之前对action进行初始化。 3.Q Learning TD Learning包含Q Learning和sars
相关文章
相关标签/搜索