Reinforcement Learning and Markov decision processes 加强学习

时间 2020-12-30

原文原文链接

ReinforcementLearning and Control 在监督学习中，数据带有标签，标签实际上就是对相应输入的“绝对正确答案”，而在很多问题中，难以找到这样的正确答案，决策过程分为很多步，这时可以提供一个奖励函数作为反馈，当算法决策的好时进行奖励，否则惩罚，此文先介绍马尔可夫决策过程Markov decision processes (MDP)。马尔可夫决策过程是一个五元组：(S,A