马可夫决策与贝尔曼方程

时间 2021-01-06

原文原文链接

强化学习系列之一:马尔科夫决策过程发表于 2016年4月4日由 lili 文章目录 [隐藏] 1. 马尔科夫决策过程 2. 策略和价值 3. 最优策略存在性和贝尔曼等式强化学习系列系列文章机器学习一共有三个分支，有监督学习、无监督学习和强化学习。强化学习是系统从环境学习以使得奖励最大的机器学习。强化学习和有监督学习的不同在于教师信号。强化学习的教师信号是动作的奖励，有监督学习的