深度强化学习 task03-2

时间 2021-05-20

原文原文链接

1. 蒙特卡洛MC和时序差分TD的区别蒙特卡洛（回合更新）：一个序列产生之后计算总收益，然后再更新时序差分（单步更新）：每走一步进行一次更新强化学习主要采用的是蒙特卡洛的回合更新的方式 2. 具体计算方法具体代码为计算输出action时用到类似交叉熵损失的方法，但由于真实的action未知，因此在交叉熵前乘一个权重（奖励分数），分数越高的输出这样的action概率越大，代码为 3.on

>>阅读原文<<