深入浅出强化学习(3)

策略搜索: 之前降到的其他方法都是通过最优值函数从而得到最优策略。利用这种方法得到的策略往往是状态空间向有限集动作空间的映射。(每个状态都有一个值函数,执行策略到下一个状态的值函数最大,直接argmax_a(值函数)) 策略搜索是将策略进行参数化即 π θ ( s ) \pi_{\theta}\left(s\right) πθ​(s),利用线性或非线性(如神经网络)对策略进行表示,寻找最优的参数
相关文章
相关标签/搜索