Planning and Learning

这算是一篇综述性文章,讲的不深,但是了解做planning都有哪些方法。这篇文章里全部使用了Q的说法,因为实现上可能是网络DQN,也可以是经典的Table。 Models and Planning Models指的是Environment Models,可以分为两大类: 当前状态和采取的动作作为输入,输出下一个所有可能状态和奖励的分布 当前状态和采取的动作作为输入,输出下一个状态和奖励 Plann
相关文章
相关标签/搜索