[强化学习-4] 蒙特卡洛和时序差分法-控制

前奏 上一篇博客利用model free的蒙特卡洛和时序差分法对状态值函数进行估计,但是当我们在状态值函数的基础上做策略提升时,还是需要环境的,那我们还不如干脆在Q(s, a)的基础上直接控制策略。 v(s)为基础,只有知道了给定动作后,各个状态的转移概率,才能知道哪个动作好 q(s, a)为基础,直接就贪心了 贪心时采用的是ε-greedy,即以1-ε的概率选取是Q(s, a)最大的动作,以ε的
相关文章
相关标签/搜索