机器学习方法篇(25)------RL价值学习方法

时间 2021-01-06

原文原文链接

● 每周一言对待别人的轻视，最好的回击是站在更高的位置。导语上一节讲了如何理解增强学习中的马尔科夫决策过程，并举了具体的例子来描述其求解方法，对算法熟悉的人或许已经看出上节示例中使用的方法是动态规划学习法。那么，除了动态规划法，增强学习的价值学习方法还有哪些？这些方法的不同之处又是什么？ RL价值学习方法动态规划（Dynamic Programming）是一种解决复杂问题的算法，该算法通过

>>阅读原文<<