关于强化学习的一些思考

时间 2019-12-10

原文原文链接

问1：加强学习的要素是什么？答1：1)有限状态集合S 2)有限动做集合A 3)转移模型T,T(s,a,s')=P(s'|s,a) 状态s采起动做a后，状态转移到s'的几率 4)即时奖励R,R(s,a)=E[Rt+1|s,a] 问2：加强学习的最终结果是什么？答2：1)最优的policy π 2)肯定型策略：a=π(s) 状态s下采起肯定动做a 3)不肯定