强化学习第九章总结,总结到9.3

这一章采取函数近似的方法,前面有提到过,状态太多的时候会考虑把策略(存疑求证,记忆里这里应该是策略,但这章提的是v函数)函数pi表示成状态的函数,只要函数的参数比状态数要少,就能起到节省空间的作用。   简单写作 v_pi(s, w) = v_pi(s)     这里的v可以是一个关于特征的线性方程,w是特征的权重,更普遍地说,v可能是一个多层神经网络而w是每一层的权重。通过调整权重。我们可以近似
相关文章
相关标签/搜索