【深度强化学习】4. Policy Gradient

【Datawhale打卡】十一的时候自己看过一遍,李宏毅老师讲的很好,对数学小白也很友好,但是由于没有做笔记(敲代码),看完以后脑袋里空落落的。趁着这次打卡活动,重新看一遍,果然好多细节需要重头梳理一遍。 文章目录 1. 新概念/符号 2. 三个组成部分 3. Gradient Ascent 4. 实现/实做 4.1 TIP1 Add a Baseline 4.2 TIP2 Assign Suit
相关文章
相关标签/搜索