强化学习：Policy-based方法Part2

时间 2021-01-16

原文原文链接

在Part1部分，我们学习了什么是策略梯度，以及该算法的优势与劣势，在Part2部分，我们将学习到如何通过策略搜索实现策略函数的迭代优化。目前，我们已经知道了基于策略的方法具有求解稳定、搜索效果好、以及始终保持一定的随机探索几率等优势。在本节，将首先从数学角度对相关理论知识给出解答，并给出基于TensorFlow的实现过程。【策略搜索】我们已经知道策略π是一个参数化函数，其结果是可以输出动作

>>阅读原文<<