《强化学习》模型无关方法

时间 2021-01-06

原文原文链接

模型无关学习 Monte-Carlo & Temporal Difference; Q-learning 探索与利用 on-policy 和 off-policy SARSA Expected value SARSA SARSA和Q-Learning对比 on-policy和off-policy对比 on-policy off-policy Agent 可以选择动作 Agent 不能选择动作 M