[强化学习-4] 蒙特卡洛和时序差分法-控制

时间 2019-12-09

标签强化学习蒙特卡洛时序差分控制繁體版

原文原文链接

前奏上一篇博客利用model free的蒙特卡洛和时序差分法对状态值函数进行估计，可是当咱们在状态值函数的基础上作策略提高时，仍是须要环境的，那咱们还不如干脆在Q(s, a)的基础上直接控制策略。web v(s)为基础，只有知道了给定动做后，各个状态的转移几率，才能知道哪一个动做好 q(s, a)为基础，直接就贪心了贪心时采用的是ε-greedy，即以1-ε的几率选取是Q(s, a)最大的动做

>>阅读原文<<