David Silver强化学习课程笔记（七）

时间 2020-12-23

原文原文链接

第七课：策略梯度方法最近在瞎忙，以致于离上一篇本专栏博客已经过去三个月了，春节在家准备写一写，又因为懒而没有下笔，今天是放假最后一天，所以准备安慰安慰自己，至少一个假期得做了点东西对吧，哈哈，不过我是认真写的，下面我们开始本课的介绍。本文主要介绍策略梯度方法，它是策略搜索方法的一种。我们将从Policy-Based RL的优势进行引入，重点介绍score fun

>>阅读原文<<