David Silver强化学习课程笔记(六)

第六课:值函数估计         好久没有写这个专栏了,现在来补一课,不然前面的都忘掉了~         本文主要讨论值函数的估计问题,主要研究两类方法:增量方法(Incremental Methods)、批方法(Batch Methods)。其中增量方法主要是从online方面考虑。批方法主要是从data efficient方面考虑。         在模型无关的预测中,我们介绍了如何对给定
相关文章
相关标签/搜索