【RL】从on-policy到off-policy

1. 什么是on-policy,什么是off-policy 其实这个概念我们之前已经提到了,这里不妨再提一下:  on-policy就是获取数据的动作和最终策略的动作是一致的,比如Sarsa。  off-policy就是获取数据的动作和最终策略的动作不一致,比如QLearning。 从这种定义我们也可以得知:我们的强化学习流程中涉及到两个关键流程:一个是选择用来获取数据的动作,另一个则是我们最终用
相关文章
相关标签/搜索