4.蒙特卡洛(Monte-Carlo, MC)+时序差分(Temporal Difference, TD)

目录 深度强化学习目录 简介 之前讲的PG算法和PPO算法,都是Policy-based的方法,接下来我们要讲Value-based的方法。之前说过了,P-B方法和V-B方法的区别在于前者训练的是策略本身(actor),而后者训练的是一种评判标准(critic)。critic能根据你输入的状态/动作,凭借策略 π \pi π来输出对应的值函数。值函数有两种,一种是V(状态-值函数),一种是Q(状态
相关文章
相关标签/搜索