强化学习:Policy-based方法Part2

在Part1部分,我们学习了什么是策略梯度,以及该算法的优势与劣势,在Part2部分,我们将学习到如何通过策略搜索实现策略函数的迭代优化。 目前,我们已经知道了基于策略的方法具有求解稳定、搜索效果好、以及始终保持一定的随机探索几率等优势。在本节,将首先从数学角度对相关理论知识给出解答,并给出基于TensorFlow的实现过程。 【策略搜索】 我们已经知道策略π是一个参数化函数,其结果是可以输出动作
相关文章
相关标签/搜索