DRL笔记系列一

参考链接 基本概念 trial and error DRL=RL+deep_learning on-policy:所有数据都是当前agent与env交互后产生的,训练时不使用old data,即不使用以前agent产生的数据 缺点:these algorithms works weaker on sample efficiency 优点:these algorithms directly opti
相关文章
相关标签/搜索