[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）

时间 2021-01-13

标签机器学习强化学习 python mooc 人工智能栏目 Python 繁體版

原文原文链接

目录强化学习定义马尔科夫决策过程基本元素值函数最优值函数最优控制 Q-Learning 强化学习定义举例：目标：在每种状态下采取最优的动作。学习目标：获得最优策略以使累计奖励最大（即score）。马尔科夫决策过程马尔科夫决策过程（MDP:Markov Decision Process）通常用来描述一个强化学习问题。智能体agent根据当前对环境的观察采取动作获得环境的反

>>阅读原文<<