【RL】Actor-Critic

强化学习的算法分为基于价值与基于策略两大类,这两大类在思想上是完全不同的。基于价值的算法目标是拟合隐藏在环境中的价值函数,而基于策略的算法则是不断地优化策略。所有强化学习的算法,基本的思想都不外乎于这两种。从这个角度上说,Actor-Critic算法本质上还是基于策略的方法,因为其算法的核心还是在不断地优化策略。虽然我们要训练价值网络,但是其目标也只是“辅佐”策略网络更好地训练。当我们学习VPG算
相关文章
相关标签/搜索