Value-Based

时间 2021-01-07

原文原文链接

文章目录蒙特卡洛(监督学习方法) TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾 Q value 蒙特卡洛(监督学习方法) 让 V π V^π Vπ无限接近 G a G_a Ga(也就是 ∑ t = 1 n r t \sum_{t=1}^{n}r^t ∑t=1nrt) TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾 l o s s loss loss = V π ( S t