上篇总结了 Model-Free Predict 问题及方法,本文内容介绍 Model-Free Control 方法,即 "Optimise the value function of an unknown MDP"。html
在这里说明下,Model-Free Predict/Control 不只适用于 Model-Free 的状况,其一样适用于 MDP 已知的问题:web
在正式介绍 Model-Free Control 方法以前,咱们先介绍下 On-policy Learning 及 Off-policy Learning。算法
On-policy Learning:框架
Off-policy Learning:函数
具体的 Control 方法,在《动态规划》一文中咱们提到了 Model-based 下的广义策略迭代 GPI 框架,那在 Model-Free 状况下是否一样适用呢?
以下图为 Model-based 下的广义策略迭代 GPI 框架,主要分两部分:策略评估及基于 Greedy 策略的策略提高。
学习
在《Model-Free Predict》中咱们分别介绍了两种 Model-Free 的策略评估方法:MC 和 TD。咱们先讨论使用 MC 状况下的 Model-Free 策略评估。
如上图GPI框架所示:google
所以 Model-Free 下须要对 \(Q(s, a)\) 策略评估,整个GPI策略迭代也要基于 \(Q(s, a)\)。spa
肯定了策略评估的对象,那接下来要考虑的就是如何基于策略评估的结果 \(Q(s, a)\) 进行策略提高。
因为 Model-Free 的策略评估基于对经验的 samples(即评估的 \(q(s, a)\) 存在 bias),所以咱们在这里不采用纯粹的 greedy 策略,防止由于策略评估的误差致使整个策略迭代进入局部最优,而是采用具备 explore 功能的 \(\epsilon\)-greedy 算法:
\[ \pi(a|s) = \begin{cases} &\frac{\epsilon}{m} + 1 - \epsilon, &\text{if } a^*=\arg\max_{a\in A}Q(s, a)\\ &\frac{\epsilon}{m}, &\text{otherwise} \end{cases} \]3d
所以,咱们肯定了 Model-Free 下的 Monto-Carlo Control:
htm
先直接贴下David的课件,GLIE 介绍以下:
对于 \(\epsilon\)-greedy 算法而言,若是 \(\epsilon\) 随着迭代次数逐步减为0,那么 \(\epsilon\)-greedy 是 GLIE,即:
\[\epsilon_{k} = \frac{1}{k}\]
GLIE Monto-Carlo Control:
定理:GLIE Monto-Carlo Control 收敛到最优的动做价值函数,即:\(Q(s, a) → q_*(s, a)\)。
咱们以前总结过 TD 相对 MC 的优点:
那么一个很天然的想法就是在整个控制闭环中用 TD 代替 MC:
经过上述改变就使得 On-Policy 的蒙特卡洛方法变成了著名的 Sarsa。
Sarsa算法的伪代码以下:
n-step Sarsa returns 能够表示以下:
\(n=1\) 时:\(q_{t}^{(1)} = R_{t+1} + \gamma Q(S_{t+1})\)
\(n=2\) 时:\(q_{t}^{(2)} = R_{t+1} + \gamma R_{t+2} + \gamma^2 Q(S_{t+2})\)
...
\(n=\infty\) 时:\(q_{t}^{\infty} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{T-1} R_T\)
所以,n-step return \(q_{t}^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n}Q(S_{t+n})\)
n-step Sarsa 更新公式:
\[Q(S_t, A_t) ← Q(S_t, A_t) + \alpha (q_t^{(n)} - Q(S_t, A_t))\]
具体的 Sarsa(λ) 算法伪代码以下:
其中 \(E(s, a)\) 为资格迹。
下图为 Sarsa(λ) 用于 Gridworld 例子的示意图:
Off-Policy Learning 的特色是评估目标策略 \(\pi(a|s)\) 来计算 \(v_{\pi}(s)\) 或者 \(q_{\pi}(s, a)\),可是跟随行为策略 \(\{S_1, A_1, R_2, ..., S_T\}\sim\mu(a|s)\)。
Off-Policy Learning 有什么意义?
重要性采样的目的是:Estimate the expectation of a different distribution。
\[ \begin{align} E_{X\sim P}[f(X)] &= \sum P(X)f(X)\\ &= \sum Q(X)\frac{P(X)}{Q(X)}f(X)\\ &= E_{X\sim Q}[\frac{P(X)}{Q(X)}f(X)] \end{align} \]
使用策略 \(\pi\) 产生的 return 来评估 \(\mu\):
\[G_t^{\pi/\mu} = \frac{\pi(A_t|S_t)}{\mu(A_t|S_t)} \frac{\pi(A_{t+1}|S_{t+1})}{\mu(A_{t+1}|S_{t+1})}...\frac{\pi(A_T|S_T)}{\mu(A_T|S_T)}G_t\]
朝着正确的 return 方向去更新价值:
\[V(S_t) ← V(S_t) + \alpha\Bigl(\color{Red}{G_t^{\pi/\mu}}-V(S_t)\Bigr)\]
须要注意两点:
TD 是单步的,因此使用策略 \(\pi\) 产生的 TD targets 来评估 \(\mu\):
\[V(S_t) ← V(S_t) + \alpha\Bigl(\frac{\pi(A_t|S_t)}{\mu(A_t|S_t)}(R_{t+1}+\gamma V(S_{t+1}))-V(S_t)\Bigr)\]
前面分别介绍了对价值函数 \(V(s)\) 进行 off-policy 学习,如今咱们讨论如何对动做价值函数 \(Q(s, a)\) 进行 off-policy 学习:
讨论完对动做价值函数的学习,咱们接着看如何经过 Q-Learning 进行 Control:
Q-Learning 的 backup tree 以下所示:
关于 Q-Learning 的结论:
Q-learning control converges to the optimal action-value function, \(Q(s, a)→q_*(s, a)\)
Q-Learning 算法具体的伪代码以下:
对比 Sarsa 与 Q-Learning 能够发现两个最重要的区别:
二者的区别见下表:
[1] Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018
[2] David Silver's Homepage