关于强化学习的一些思考

问1:加强学习的要素是什么? 答1:1)有限状态集合S     2)有限动做集合A     3)转移模型T,T(s,a,s')=P(s'|s,a) 状态s采起动做a后,状态转移到s'的几率     4)即时奖励R,R(s,a)=E[Rt+1|s,a] 问2:加强学习的最终结果是什么? 答2:1)最优的policy π     2)肯定型策略:a=π(s) 状态s下采起肯定动做a     3)不肯定
相关文章
相关标签/搜索