David Silver 第二讲MDP基本概念(通俗理解)

David Silver 第二讲MDP基本概念 本文只是作者个人理解,如有错误,欢迎各位指正。 一、基本定义 MDP过程是一个五元组——状态空间+行为空间+状态转移概率空间+奖励+折扣因子 其中,状态空间,折扣因子类比于MRP(马尔可夫奖励过程) 对于,行为空间:一组有限行为的集合,例:走迷宫游戏的(上下左右四个动作)构成行为空间            状态转移概率:与MP(马尔可夫过程)和MRP
相关文章
相关标签/搜索