强化学习中的蒙特卡洛（monte-carlo）算法和时序差分算法

时间 2019-12-06

标签强化学习蒙特卡洛 monte carlo 算法时序差分繁體版

原文原文链接

【未完成】web 蒙特卡洛蒙特卡洛是一类通用算法，思想是经过随机采样逼近真实，这里只介绍在强化学习中的应用。最初的想法应该是连续运行多个周期，好比经历了两次(s, a)，而且计算了对应的Gt，那么q(s,a)取之平均就能够了，但实际上，为了优化策略或者值函数，不能这样屡次采样后直接计算，而是每次采样（一周期）就迭代计算并更新。算法特色周期性更新：一整个周期结束了（到达了终点）才回进行一个

>>阅读原文<<