RL论文阅读14-MB-PETS2018

1. Tittle 2. 标签 Model Based 3. 总结 3.1 针对的问题 MB算法虽然能够获得很棒的sample efficienty,但是通常落后于最好的model-free。在大规模参数的函数估计器中更为明显,如神经网络。 本论文就是研究如何跨越这个差距。提出了Probabilistic ensembles with trajectory sampling(PETS)。算法结合了
相关文章
相关标签/搜索