深度强化学习（文献篇）—— 从 DQN、DDPG、NAF 到 A3C

时间 2019-12-15

标签深度强化学习文献 dqn ddpg naf a3c 栏目 C&C++ 繁體版

原文原文链接

本身第一篇 paper 就是用 MDP 解决资源优化问题，想来那时写个东西真是艰难啊。彼时倒没想到这个数学工具，现在会这么火，还衍生了新的领域——强化学习。固然如今研究的内容已有了很大拓展。这段时间会作个深度强化学习的专题，包括基础理论、最新文献和实践三大部分。web DRL 的核心思想是，用神经网络来表征值函数或者参数化 policy，从而使用梯度优化方法来优化损失。本篇介绍近年来 DRL

>>阅读原文<<