基础算法篇(八),异步强化学习方法与A3C

这一篇,我们介绍一种全新的强化学习方法,称为“异步”强化学习方法。首先,这里没有用算法(algorithm)而是用方法(method),是因为这里提供的是一种与前面相关算法相兼容的新的实现思路,而不是本身在算法方面的革新。其次,我们看“异步”这个词,它已经很明确的表示了这个方法的特点,简单来说,其实就是将“并行”的思路代入前面我们提到的各种value-based或policy-based方法中。
相关文章
相关标签/搜索