深度强化学习 on-policy 和 off-policy

如下图,考查两个Policy的一致性: 生成训练数据基于的Behavior Policy 目标值即target value基于的Target Policy on-policy:两者一致 off-policy:两者不同 比如DQN:        Target Policy π 是基于target network(参数为)的greedy policy,即给定s,选择使target value最大的a
相关文章
相关标签/搜索