Monte Carlo与TD算法

时间 2019-12-05

标签 monte carlo 算法繁體版

原文原文链接

RL 博客：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&view=me&from=space&srchtxt=RL&page=1php

转自：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&id=1128648，感谢分享html

Monte carlo 和TD 都是model-free 的估值方法， TD 用于online RL 场景算法

强化学习中的Model-free问题主要的解决思路来源于统计方法。所谓统计方法又可分为Monte Carlo与TD算法。当学习任务可转化为episode task形式时，Monte Carlo与TD算法在实现上的不一样主要体如今如何更新状态动做值函数。n-step TD算法则是由两种不一样的值函数更新形式相结合所产生的，因此想要理解n-step TD算法，对Monte Carlo与TD进行透彻地的解析是十分有必要的。bootstrap

Backup Diagram的区别dom

Monte Carlo方法：每一个执行一个episode task，更新episode开始时的状态值函数。假设一个episode开始时的状态为 $S t a r t$ 函数

Monte Carlo学习

TD方法：在任意一个episode task执行过程当中所遇到的每一个状态都会被更新，且每一个状态的更新都依赖于下一个状态的值函数与到达下一个状态所得到的奖励。由于是边执行episode边更新值函数，这种方法又被称为on-line learning。实际上，相似MC方法将执行好的episode的轨迹(trajectory)保存在下来，再依照TD方法更新也能够达到与on-line learning相同的效果，但很明显，这个方法是off-line learning，也就是说线下与线上学习并非区分Monte Carlo与TD算法的依据。TD算法的值函数更新可用下图表示出来：优化

TDui

由上述示意图能够发现，TD方法的最后一步，也就是对状态 $S_{n}$ atom

定步长与不定步长，TD方法

定步长与不定步长的更新方法在Bandit问题里就曾讨论过，定步长实际上为Recency-Weighted Average，不定步长则是Incremental形式。一般来讲，Monte Carlo Prediction采用的是不定步长的值函数更新，TD方法则采用的是定步长形式，但也不是固定的，能够互换使用。理论上来讲，定步长与不定步长的通用形式能够写为：

V n + 1 (S) = V n (S) + α (X - V n (S))

在这个式子中， $α$

Incremental Implementation做为不定步长的一种形式，能够说是比较好的平衡了收敛速度与均值方差之间的矛盾。对于Incremental形式来讲，开始须要收敛速度时， $α$

为了解决这个问题，咱们能够人为的构造出与原有须要估计的随机变量 $X$

Y = R e w (S') + V (S')

为何MC方法中的随机变量 $X$

例子一：

假设共执行了N个episode，其中到达终态的episode个数分别为N1~N7。估计状态 $S_{1}$

V (S 1) = \sum 6 i N i R i \sum 6 i N i

若是使用TD方法，对状态 $S_{1}$

V (S 1) = K 1 V ( S 2 ) + K 2 V ( S 3 ) K 1 + K 2 = \sum 6

至于观察方差的变化，咱们首先将通用的值函数更新方程作一个简单的化简：

V n + 1 (S) = V n (S) + α (X - V n (S)) = (1 - α) V n (S)

值函数 $V (S)$

例子二：

如上图所示，终态只有End1与End2，让咱们假设episode到达End1所得到的Reward为1，到达End2所得到的Reward为0。如按照MC方法更新，则值函数通用更新方程中的随机变量 $X$

P (X = 1) = 0.5

依据方差计算公式，随机变量 $X$

V a r (X) = E [X 2] - (E [X]) 2 = 0.25

若是咱们按照TD方法更新，则可先计算出 $V (S_{2}) = \frac{1}{3}$

P (Y = 1 3 ) = 0.5

TD方法的估计均值偏差是MC方法的1/10，这也就是TD方法一般能够在保持与MC方法相同的估计均值偏差的前提下会以更快的速度收敛的缘由（Random Walk问题就很好的应证了这一点，能够参考Sutton书的Figure 6.2与Figure 6.3）。但实际上这也并不是是绝对的，MC方法的表现很是仰赖Reward设计与实际的环境，当终态数量不少时，Reward值之间比较接近时，MC方法的估计均值偏差也不必定差。

n-step TD

对于上述的例子二，可将其episode前进的过程分为三个阶段或三层（以下图所示），所构造的待估计随机变量 $Y = {V (S_{2}), V (S_{3})}$

下面给出2-step TD的Backup Diagram：

2-Step TD

能够写出n-step TD的构造随机变量 $Y$

Y = R e w (S n) + V (S n)

一般来讲，在进入收敛状态后，n-step TD的均值估计偏差并不会必定优于1-step TD，但却能够很好的控制收敛的速度与RMSE之间的平衡，而且n-step TD的优点在于能够很好与eligibility traces相关联，这里就再也不深刻讨论，只探讨n-step TD自己。

转载本文请联系原做者获取受权，同时请注明本文来自管金昱科学网博客。
连接地址：http://blog.sciencenet.cn/blog-3189881-1128648.html