深度强化学习 task03-2

1. 蒙特卡洛MC和时序差分TD的区别 蒙特卡洛(回合更新):一个序列产生之后计算总收益,然后再更新 时序差分(单步更新):每走一步进行一次更新 强化学习主要采用的是蒙特卡洛的回合更新的方式 2. 具体计算方法 具体代码为 计算输出action时用到类似交叉熵损失的方法,但由于真实的action未知,因此在交叉熵前乘一个权重(奖励分数),分数越高的输出这样的action概率越大,代码为 3.on
相关文章
相关标签/搜索