David silver强化学习课程第六课 值函数近似

第六课 值函数近似 一开始看这节课内容的时候,还是有些乱的。不像前五章每一章的联系都很紧密,本章内容较分散,概念性的东西变少了,更多的引入了几种不同的算法,可以直接从算法上理解本课的内容—值函数近似。 对于预测问题,我们可以参数化的表示状态值函数;对于预测问题,可以参数化的表示状态-动作值函数。本章讲了值函数近似的两种方法:增量方法和批方法,这两种方法主要在数据的使用上有所不同,但是都是基于随机梯
相关文章
相关标签/搜索