强化学习(2)-算法总论

DRL的基本模型: DRL算法大框架: 大脑的执行机构-actor: 输入状态s,输出动作a(policy gradient算法) 大脑的评判机构-critrc:根据回馈r(外界给的)进行调整。(Q learning) 人类也是在本能和价值观影响作用下进行行为,并且价值受经验的影响不断改变。 在actor-critic的框架下:有DQN、A3C、UNREAL等算法提出。 DQN- 第一个提出的DR
相关文章
相关标签/搜索