RL论文阅读10-me-RL2.2016

Tittle source 标签 Meta-Learning 总结 针对的问题 Data efficiency Fast Learn 解决方法 把agent的学习过程视为一个可以使用标准的RL算法优化的objective,agent使用一个RNN网络来表示,接收past rewards, actions, terminations flags, observations. 它保留着某个MDP过程的
相关文章
相关标签/搜索