[强化学习-4] 蒙特卡洛和时序差分法-控制

前奏 上一篇博客利用model free的蒙特卡洛和时序差分法对状态值函数进行估计,可是当咱们在状态值函数的基础上作策略提高时,仍是须要环境的,那咱们还不如干脆在Q(s, a)的基础上直接控制策略。web v(s)为基础,只有知道了给定动做后,各个状态的转移几率,才能知道哪一个动做好 q(s, a)为基础,直接就贪心了 贪心时采用的是ε-greedy,即以1-ε的几率选取是Q(s, a)最大的动做
相关文章
相关标签/搜索