[Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周)

目录 强化学习 定义 马尔科夫决策过程 基本元素 值函数 最优值函数 最优控制 Q-Learning 强化学习 定义 举例: 目标:在每种状态下采取最优的动作。 学习目标:获得最优策略以使累计奖励最大(即score)。 马尔科夫决策过程 马尔科夫决策过程(MDP:Markov Decision Process)通常用来描述一个强化学习问题。 智能体agent根据当前对环境的观察采取动作获得环境的反
相关文章
相关标签/搜索