【深度强化学习三】Actor-Critic及衍生算法简介（李宏毅老师学习视频笔记）

时间 2021-01-13

标签深度强化学习繁體版

原文原文链接

首先放视频链接李宏毅老师深度强化学习课程 Actor-Critic算法简介这是一种policy based和value based方法的结合。首先复习一下加了discount和baseline的policy gradient算法： ∇ R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ log ⁡

>>阅读原文<<

1. 李宏毅机器学习深度学习视频笔记
2. 【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）
3. 【深度强化学习二】Q-Learning小技巧（2）（李宏毅老师学习视频笔记）
4. 【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）
5. 李宏毅深度学习笔记
6. 李宏毅《深度学习》：深度学习简介
7. 强化学习--李宏毅
8. 李宏毅老师机器学习和深度学习
9. 李宏毅强化学习笔记【0.强化学习导论】
10. 李宏毅深度强化学习笔记（七）Sparse Reward
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• Kotlin学习（一）基本语法

最新文章

1. 字节跳动21届秋招运营两轮面试经验分享
2. Java 3 年，25K 多吗？
3. mysql安装部署
4. web前端开发中父链和子链方式实现通信
5. 3.1.6 spark体系之分布式计算-scala编程-scala中trait特性
6. dataframe2
7. ThinkFree在线
8. 在线画图
9. devtools热部署
10. 编译和链接

本站公众号

欢迎关注本站公众号,获取更多信息

1. 李宏毅机器学习深度学习视频笔记
2. 【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）
3. 【深度强化学习二】Q-Learning小技巧（2）（李宏毅老师学习视频笔记）
4. 【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）
5. 李宏毅深度学习笔记
6. 李宏毅《深度学习》：深度学习简介
7. 强化学习--李宏毅
8. 李宏毅老师机器学习和深度学习
9. 李宏毅强化学习笔记【0.强化学习导论】
10. 李宏毅深度强化学习笔记（七）Sparse Reward

>>更多相关文章<<

【深度强化学习 三】Actor-Critic及衍生算法简介（李宏毅老师学习视频笔记）

【深度强化学习三】Actor-Critic及衍生算法简介（李宏毅老师学习视频笔记）