(David Silver深度强化学习) - Lecture1: Introduction to RL

David Silver deep reinforcement learning course in 2019. For document and discussion. Lecture1:Introduction Outline Ⅰ The RL Problem 1.Reward reward R t R_t Rt​ 是一个标量的反馈信号 表明agent的每一步的执行效果 agent目标:将累积
相关文章
相关标签/搜索