Reinforcement learning: integrating learning and planning, exploitation and exploration

介绍 基于模型的RL 整体框架 基于仿真的搜索 Exploration and Exploitation 介绍 越看到后面,我越发觉得RL更像是一种思想,Policy,State都需要自己进行定义,计算value function的过程也有公式,但是不如深度学习那么直接。 之前的章节是说到如何从经验中得到policy和value function,这一节是如何从经验中获取模型。然后使用模型加经验来
相关文章
相关标签/搜索