IMPALA 分布式框架 学习笔记

以下总结来源于:http://www.javashuo.com/article/p-peflmnno-ky.html IMPALA的灵感来自于热门的A3C架构,后者使用多个分布式actor来学习agent的参数。在类似这样的模型中,每个actor都使用策略参数的一个副本,在环境中操作。actor会周期性地暂停探索,将它们已经计算得出的梯度信息分享至中央参数服务器,而后者会对此进行更新。 与此不同,
相关文章
相关标签/搜索