Value-Based

文章目录 蒙特卡洛(监督学习方法) TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾 Q value 蒙特卡洛(监督学习方法) 让 V π V^π Vπ无限接近 G a G_a Ga​(也就是 ∑ t = 1 n r t \sum_{t=1}^{n}r^t ∑t=1n​rt) TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾 l o s s loss loss = V π ( S t
本站公众号
   欢迎关注本站公众号,获取更多信息