深度强化学习——A3C

时间 2021-01-16

原文原文链接

联系方式：[email protected] 异步的优势行动者评论家算法（Asynchronous Advantage Actor-Critic，A3C）是Mnih等人根据异步强化学习（Asynchronous Reinforcement Learning， ARL）的思想，提出的一种轻量级的 DRL 框架，该框架可以使用异步的梯度下降法来优化网络控制器的参数，并可以结合多种RL算法。一、问题