强化学习策略梯度方法

时间 2021-01-06

标签机器学习繁體版

原文原文链接

一、策略估计方法行为控制到目前为止，几乎所有的方法都是基于动作-价值函数的方法，它们都是先学习动作价值函数，然后再根据估计的动作价值函数选择动作，如果没有动作价值函数的估计，那么策略也将不再存在。下面会讲直接学习参数化的策略，这里给出一个例子：如果在上述游戏中，游戏者在灰色格子中难以分辨自己的位置，那么如果基于价值函数的方法会得到如下的策略：在灰色的格子上要么都是左，要么都是右，这很显然

>>阅读原文<<

强化学习 策略梯度方法

强化学习策略梯度方法