DRL(二)—— RL简介

RL Structure RL中基本包括三个部分,如下图: Model-Based RL 在model-based RL里,绿格子里是预判下一个状态St+1。橙色格子依然是产生样本,绿色格子是利用这些样本去产生一个fφ,利用这个函数,可以预测下一个状态。用样本使这个函数越来越拟合。 这样可以得到一个确定的policy,a deterministic policy,在确定的环境中可以工作的较好,但是
相关文章
相关标签/搜索