有关**迭代学习**控制的一些基本概念

有关迭代学习控制的一些基本概念 这一篇主要讲一些在学习控制研究领域中经常遇到的基本概念和专业的英语表述方式,至关于先入门吧. 马尔科夫决策过程 (Markov decision processes, MDP) 以 移动机器人走地图的例子来讲明MDP。MDP是一个五元组 (S,A,Psa,γ,R) ,包括: web 元 含义 解释 S 状态集,全部可能出现的状态 全部机器人可能出现的位置 A 动做集
相关文章
相关标签/搜索