DQN（Deep Q-learning）入门教程（一）之强化学习介绍

时间 2020-06-01

标签 dqn deep learning 入门教程强化学习介绍繁體版

原文原文链接

什么是强化学习？

强化学习（Reinforcement learning，简称RL）是和监督学习，非监督学习并列的第三种机器学习方法，以下图示：html

首先让咱们举一个小时候的例子：机器学习

你如今在家，有两个动做选择：打游戏和读书。若是选择打游戏的话，你就跑到了网吧，选择读书的话，就坐在了书桌面前。你爸妈下班回家，若是发现你在网吧，就会给你一套社会主义的铁拳，若是你在书桌面前的话，就会买根棒棒糖给你吃。函数

首先，你在家的时候并不知道选择哪个动做，所以你可能会选择study或者game。可是，当你接受了屡次社会主义的毒打和奖励棒棒糖以后，你会发现选择game会获得惩罚，选择study你会获得奖励。所以当你再次处于”home“状态时，你就会偏向于选择“study”。（这即是强化学习！！）学习

强化模型能够建模以下：spa

以上面的为例子，对以下进行说明：code

Agent：Agent也就是执行个体，咱们能够操做执行个体作出不一样的选择（也就是动做Action）。htm

图中的“你”blog
Environment：咱们研究的环境，它有一个一个的状态（State）。游戏

图中你所处的位置状态：网吧or书桌ip
Action：当Agent作出动做（action）的时候，环境会发生改变也就是State会发生改变。

选择Study或者Game后你会处于书桌或者网吧的状态
Reward：当State发生改变时，环境会给予必定的奖励（奖励可为正负）。

拳头or棒棒糖

总的来讲，就是Agent在$t$时刻处于$s_t$状态，它会作出某一个动做$a_i$，致使$t+1$的状态为$s_{t+1}$，同时在$t+1$时刻获得的奖励为$R_{t+1}$。

接下来咱们再介绍强化学习中稍微复杂一点的概念。这些概念是之后的基础，也比较简单，很容易理解。

策略(Policy)$\pi$

当Agent处于某一个state的时候，它作的Action是不肯定的，例如你能够选择study也能够选择game，也就是说你在某一个状态是以必定的几率去选择某一个action。也就是说，策略的选择是一个条件几率$\pi(a|s)$，这里的$\pi$与数序中的$\pi$没有任何关系，他只是表明一个函数而已（所以也能够写做$f(a|s)$）。

\[\pi(a|s) = P(A_t=a | S_t=s) \]

此函数表明：在状态$s$时采起动做$a$的几率分布。

价值(value)

前面咱们说到过奖励，当Agent在$t$时刻执行某个动做时，会获得一个$R_{t+1}$。咱们能够想一下蝴蝶效应，这个Action会影响$R_{t+1}$，那么他会不会影响$R_{t+2}，R_{t+3}……R_{t+n}$呢？极可能会的，好比说在电游中，你所作的某个选择确定会对接下来的游戏产生影响，这个影响能够深远，也能够没那么深渊（对，我说的就是隐形守护者，mmp），所以状态价值函数能够表示为：

\[v_{\pi}(s) = \mathbb{E}_{\pi}(R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3}+...|S_t=s) \]

$v_{\pi}(s)$与策略函数$\pi$有关，能够理解为当Agent以策略$\pi$运行时，状态$s$的价值是多少。也就是在此状态下，我可以获得多少回报。

在后面咱们会详细的对这个函数进行分析。

$ \gamma$ 奖励衰减因子

在上面的价值函数中，有一个变量$\gamma$ ，即奖励衰减因子，在[0，1]之间。若是为0，则是贪婪法，即价值只由当前的奖励决定，若是是1，则全部的后续状态奖励和当前奖励一视同仁。通常来讲取0到1之间的数。

环境的状态转化模型

因为在某个状态下，执行必定的action，可以达到新的一个状态$state_{t+1}$，可是$state_{t+1}$不必定是惟一的。环境的状态转化模型，能够理解为一个几率状态机，它是一个几率模型，即在状态$t$下采起动做$a$,转到下一个状态$s'$的几率，表示为$P_{ss'}^a$。

探索率$\epsilon$

怎么说的探索率呢？它主要是为了防止陷入局部最优。好比说目前在$s_1$状态下有两个$a_1,a_2$。咱们经过计算出，发现执行$a_1$的动做比较好，可是为了防止陷入局部最优，咱们会选择以 $\epsilon$ 的几率来执行$a_2$，以$1 - \epsilon$ 的几率来执行$a_1$。通常来讲，$\epsilon$ 随着训练次数的增长而逐渐减少。

马尔科夫决策过程(MDP)

前面咱们说过某个状态执行action能够转换成另一个state，能够用几率表示为：$P_{ss'}^a$。那么这个几率与什么有关呢？认真的考虑下，毋庸置疑，与目前的状态$s_t和a$有关，可是一样，它可能也与上一个状态$s_{t-1}$，上上个状态$s_{t-2}$……有关，可是若是真的这样考虑，就复杂了。

所以咱们将问题进行必定的简化，简化的方法就是假设状态转化的马尔科夫性，也就是假设转化到下一个状态$s'$的几率仅与当前状态$s$有关，与以前的状态无关（也就是说将来与当前有关，与过去无关）。用公式表示就是：

\[P_{ss'}^a = \mathbb{P}(S_{t+1}=s'|S_t=s, A_t=a) \]

同时对于针对于策略 $\pi$ 咱们也作MDP假设，也就是说，当前Agent所做的策略仅仅与当前状态有关，与之前的状态都没有关系，所以：

\[\pi(a|s) = P(A_t=a | S_t=s) \]

一样针对于价值函数$v$，有：

\[v_{\pi}(s) = \mathbb{E}_{\pi}(R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3}+...|S_t=s) \]

价值函数与Bellman方程

之因此咱们来分析这个价值函数，是由于它是强化学习的核心，为何Agent可以自动学习，自动选择某一个Action，其中一个量化标准就是它：

\[v_{\pi}(s) = \mathbb{E}_{\pi}(R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3}+...|S_t=s) \]

令：

\[\begin{equation}G_{t}=R_{t+1}+\gamma R_{t+2}+\ldots=\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1}\end{equation} \]

$G_t$表明Return，表明Agent从某一个状态$S_t$开始直到终止状态时全部奖励的有衰减的之和。

则有：

\[v_{\pi}(s) = \mathbb{E}_{\pi}(G_t|S_t=s) \]

So：

\[\begin{equation}\begin{aligned} v_{\pi}(s) &=\mathbb{E}_{\pi}\left(R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots | S_{t}=s\right) \\ &=\mathbb{E}_{\pi}\left(R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\ldots\right) | S_{t}=s\right) \\ &=\mathbb{E}_{\pi}\left(R_{t+1}+\gamma G_{t+1} | S_{t}=s\right) \\ &=\mathbb{E}_{\pi}\left(R_{t+1}+\gamma v_{\pi}\left(S_{t+1}\right) | S_{t}=s\right) \end{aligned}\end{equation} \]

所以：

\[v_\pi(s)=\mathbb{E}\left[R_{t+1}+\gamma v\left(S_{t+1}\right) | S_{t}=s\right] \]

上述方程即是Bellman方程的基本形态。所以咱们能够知道，当前状态的价值与奖励$\R_{t+1}$和下一个状态的价值有关。

动做价值函数

这里再说一下动做价值函数，它表明着在当前state下，作某一个action的价值：

\[q_{\pi}(s,a) = \mathbb{E}_{\pi}(G_t|S_t=s, A_t=a) = \mathbb{E}_{\pi}(R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3}+...|S_t=s,A_t=a) \]

一样，咱们利用Bellman方程，能够将上式转化成：

\[q_{\pi}(s,a) = \mathbb{E}_{\pi}(R_{t+1} + \gamma q_{\pi}(S_{t+1},A_{t+1}) | S_t=s, A_t=a) \]

动做价值函数与状态价值函数之间能够相互进行转化：

\[v_{\pi}(s) = \sum\limits_{a \in A} \pi(a|s)q_{\pi}(s,a) \\ q_{\pi}(s,a) = R_s^a + \gamma \sum\limits_{s' \in S}P_{ss'}^av_{\pi}(s') \]

图示说明以下：图来自（强化学习（二）马尔科夫决策过程(MDP)）

综上可得：

\[\begin{equation}\begin{aligned} v_{\pi}(s) &=\sum_{a \in A} \pi(a | s)\left(R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)\right) \\ q_{\pi}(s, a) &=R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s s^{\prime}}^{a} \sum_{a^{\prime} \in A} \pi\left(a^{\prime} | s^{\prime}\right) q_{\pi}\left(s^{\prime}, a^{\prime}\right) \end{aligned}\end{equation} \]

总结

OK，强化学习的入门介绍就到这里，经过这篇博客，咱们知道了：

策略 $\pi$ ：表示在某一个状态下，action的几率分布函数$\pi(a|s) = P(A_t=a | S_t=s)$
$\gamma$ ：奖励衰减因子，表示后续奖励的占比
探索率$\epsilon$：表示Agent以 $\epsilon$ 的几率来随机选择action
状态转化模型：表示执行某个action后，状态变化的几率函数$P_{ss'}^a = \mathbb{P}(S_{t+1}=s'|S_t=s, A_t=a)$
状态价值函数：表示 $t$ 时刻的状态 $s_{t}$ 能得到的将来回报（return）的指望$v_\pi(s)=\mathbb{E}\left[R_{t+1}+\gamma \left(S_{t+1}\right) | S_{t}=s\right]$
动做价值函数：表示 $t$ 时刻的状态 $s$，选择一个 action 后能得到的将来回报（return）的指望

$q_{\pi}(s,a) = \mathbb{E}_{\pi}(R_{t+1} + \gamma q_{\pi}(S_{t+1},A_{t+1}) | S_t=s, A_t=a)$

DQN（Deep Q-learning）入门教程（一）之强化学习介绍

什么是强化学习？

策略(Policy)\(\pi\)

价值(value)

$ \gamma$ 奖励衰减因子

环境的状态转化模型

探索率\(\epsilon\)

马尔科夫决策过程(MDP)

价值函数与Bellman方程

动做价值函数

总结

参考