cs294-RL introduction

强化学习的种类 model-based RL 值函数 policy gradient actor-critic: value function plus policy gradients 为什么要有那么多的RL算法? 协调因素:采样高效、稳定 不同假设:随机或确定、连续or离散、episode or infinite horizon 难度不同:策略展示简单还是模型展示简单 采样高效、on-poli
相关文章
相关标签/搜索