[强化学习-4] 蒙特卡洛和时序差分法-控制

时间 2021-01-13

原文原文链接

前奏上一篇博客利用model free的蒙特卡洛和时序差分法对状态值函数进行估计，但是当我们在状态值函数的基础上做策略提升时，还是需要环境的，那我们还不如干脆在Q(s, a)的基础上直接控制策略。 v(s)为基础，只有知道了给定动作后，各个状态的转移概率，才能知道哪个动作好 q(s, a)为基础，直接就贪心了贪心时采用的是ε-greedy，即以1-ε的概率选取是Q(s, a)最大的动作，以ε的

>>阅读原文<<