深度强化学习(文献篇)—— 从 DQN、DDPG、NAF 到 A3C

本身第一篇 paper 就是用 MDP 解决资源优化问题,想来那时写个东西真是艰难啊。 彼时倒没想到这个数学工具,现在会这么火,还衍生了新的领域——强化学习。固然如今研究的内容已有了很大拓展。 这段时间会作个深度强化学习的专题,包括基础理论、最新文献和实践三大部分。web DRL 的核心思想是,用神经网络来表征值函数或者参数化 policy,从而使用梯度优化方法来优化损失。 本篇介绍近年来 DRL
相关文章
相关标签/搜索