深入浅出强化学习（3）

时间 2020-12-25

原文原文链接

策略搜索：之前降到的其他方法都是通过最优值函数从而得到最优策略。利用这种方法得到的策略往往是状态空间向有限集动作空间的映射。（每个状态都有一个值函数，执行策略到下一个状态的值函数最大，直接argmax_a(值函数)）策略搜索是将策略进行参数化即 π θ ( s ) \pi_{\theta}\left(s\right) πθ(s)，利用线性或非线性（如神经网络）对策略进行表示，寻找最优的参数

>>阅读原文<<