RL论文阅读8-mb-ME-TRPO2018

文章目录 1. Tittle 2. 标签 3. 总结 针对的问题 解决的思路 4. 原理 Vanilla Approch(原始方法) 1. 模型学习 2. 策略学习 改进的方法ME TRPO 1. Tittle source 2. 标签 Model-Based Continue Actions 3. 总结 如题目所示,就是把model-ensemble的思想应用到了TROP算法上。 针对的问题 数
相关文章
相关标签/搜索