强化学习 策略梯度方法

一、策略估计方法 行为控制 到目前为止,几乎所有的方法都是基于动作-价值函数的方法,它们都是先学习动作价值函数,然后再根据估计的动作价值函数选择动作,如果没有动作价值函数的估计,那么策略也将不再存在。 下面会讲直接学习参数化的策略,这里给出一个例子: 如果在上述游戏中,游戏者在灰色格子中难以分辨自己的位置,那么如果基于价值函数的方法会得到如下的策略: 在灰色的格子上要么都是左,要么都是右,这很显然
相关文章
相关标签/搜索