SARSA时序差分学习方法

什么是SARSA SARSA算法的全称是State Action Reward State Action,属于时序差分学习算法的一种,其综合了动态规划算法和蒙特卡洛算法,比仅仅使用蒙特卡洛方法速度要快很多。当时序差分学习算法每次更新的动作数为最大步数时,就等价于蒙特卡洛方法。 值函数更新公式的引入:多次试验的平均 SARSA的核心思想在于增量计算。在蒙特卡洛算法中,我们需要对 Q Q Q函数 Q
相关文章
相关标签/搜索