David Silver强化学习课程笔记(七)

第七课:策略梯度方法         最近在瞎忙,以致于离上一篇本专栏博客已经过去三个月了,春节在家准备写一写,又因为懒而没有下笔,今天是放假最后一天,所以准备安慰安慰自己,至少一个假期得做了点东西对吧,哈哈,不过我是认真写的,下面我们开始本课的介绍。         本文主要介绍策略梯度方法,它是策略搜索方法的一种。我们将从Policy-Based RL的优势进行引入,重点介绍score fun
相关文章
相关标签/搜索