深度强化学习——A3C

联系方式:860122112@qq.comgit 异步的优点行动者评论家算法(Asynchronous Advantage Actor-Critic,A3C)是Mnih等人根据异步强化学习(Asynchronous Reinforcement Learning, ARL) 的思想,提出的一种轻量级的 DRL 框架,该框架可使用异步的梯度降低法来优化网络控制器的参数,并能够结合多种RL算法。gith
相关文章
相关标签/搜索