强化学习中的蒙特卡洛(monte-carlo)算法和时序差分算法

【未完成】web 蒙特卡洛 蒙特卡洛是一类通用算法,思想是经过随机采样逼近真实,这里只介绍在强化学习中的应用。 最初的想法应该是连续运行多个周期,好比经历了两次(s, a),而且计算了对应的Gt,那么q(s,a)取之平均就能够了,但实际上,为了优化策略或者值函数,不能这样屡次采样后直接计算,而是每次采样(一周期)就迭代计算并更新。算法 特色 周期性更新: 一整个周期结束了(到达了终点)才回进行一个
相关文章
相关标签/搜索