PaddlePaddle飞桨强化学习7日打卡营-Day2

跟随百度6.19日开课的强化学习7日打卡营,入门强化学习。第二课是表格型方法求解RL问题。   Day 2. 基于表格型方法求解RL 强化学习中的智能体agent通过和环境env交互,执行动作action获得反馈reward,逐步学习完善任务执行策略。 在某状态state下执行动作action,得到反馈reward;但复杂任务是一个序列决策任务,需要执行一系列action,以完成任务获得最高的最终
相关文章
相关标签/搜索