《强化学习》 模型无关方法

模型无关学习 Monte-Carlo & Temporal Difference; Q-learning 探索与利用 on-policy 和 off-policy SARSA Expected value SARSA SARSA和Q-Learning对比 on-policy和off-policy对比 on-policy off-policy Agent 可以选择动作 Agent 不能 选择动作 M
相关文章
相关标签/搜索