RL论文阅读5 - RWMFPE 2018

Tittle source 标签 Model Based 总结 提出了一个新的Model-Based学习的框架。如图: 这个模型一共分成三个部分: V:用来将输入的图片编码成z。学习图像的抽象表示。 M:用来预测未来的z。M生成的是z的概率密度而不是直接生成z向量。 C:根据M产出的h和V产出的z,生成一个动作a。C一般是一个简单线性的。 在训练时:先训练V,然后用V的产出训练M,最后整合训练C
相关文章
相关标签/搜索