独家 | 强化学习中的策略网络vs数值网络（附链接）

时间 2020-12-30

原文原文链接

在强化学习中，智能体（agent）在环境中进行一些随机的抉择，并从很多选择中选择最优的一个来达到目标，实现优于人类的水平。在强化学习中，策略网络和数值网络通常一起使用，比如蒙特卡洛树搜索。这两个网络是探索蒙特卡洛树搜索算法中的一个整体部分。因为他们在迭代过程中被计算了很多次，所以也被叫做策略迭代和数值迭代，。接下来我们一起来理解这两个网络在机器学习中为什么如此重要，以及它们之间有什么区别。什

>>阅读原文<<