机器学习方法篇(25)------RL价值学习方法

● 每周一言 对待别人的轻视,最好的回击是站在更高的位置。 导语 上一节讲了如何理解增强学习中的马尔科夫决策过程,并举了具体的例子来描述其求解方法,对算法熟悉的人或许已经看出上节示例中使用的方法是动态规划学习法。那么,除了动态规划法,增强学习的价值学习方法还有哪些?这些方法的不同之处又是什么? RL价值学习方法 动态规划(Dynamic Programming)是一种解决复杂问题的算法,该算法通过
相关文章
相关标签/搜索