基础算法篇（八），异步强化学习方法与A3C

时间 2021-01-12

原文原文链接

这一篇，我们介绍一种全新的强化学习方法，称为“异步”强化学习方法。首先，这里没有用算法（algorithm）而是用方法（method），是因为这里提供的是一种与前面相关算法相兼容的新的实现思路，而不是本身在算法方面的革新。其次，我们看“异步”这个词，它已经很明确的表示了这个方法的特点，简单来说，其实就是将“并行”的思路代入前面我们提到的各种value-based或policy-based方法中。

>>阅读原文<<