【深度强化学习】4. Policy Gradient

时间 2021-03-21

原文原文链接

【Datawhale打卡】十一的时候自己看过一遍，李宏毅老师讲的很好，对数学小白也很友好，但是由于没有做笔记（敲代码），看完以后脑袋里空落落的。趁着这次打卡活动，重新看一遍，果然好多细节需要重头梳理一遍。文章目录 1. 新概念/符号 2. 三个组成部分 3. Gradient Ascent 4. 实现/实做 4.1 TIP1 Add a Baseline 4.2 TIP2 Assign Suit

>>阅读原文<<