李宏毅强化学习笔记【0.强化学习导论】

时间 2021-01-12

标签强化学习繁體版

原文原文链接

agent观察（observation即为state）environment agent对做一些动作（action），影响environment 因为有一些影响，environment给agent一些reward，告诉他是好的影响还是坏的影响 agent要学习，如何采取动作才能让期望的reward最大有时候reward很稀疏，大部分为0（什么都没发生），只有少数有数值，这是一个困难。监

>>阅读原文<<

1. 李宏毅强化学习笔记【0.强化学习导论】
2. 强化学习--李宏毅
3. 李宏毅强化学习学习笔记-policy gradient and PPO
4. 李宏毅强化学习1
5. 【李宏毅-强化学习笔记】p1-p2、PPO
6. 李宏毅深度强化学习笔记（七）Sparse Reward
7. 李宏毅强化学习笔记【3.Actor-Critic】
8. 李宏毅强化学习笔记【5.Imitation Learning】
9. 【完结】李宏毅深度强化学习笔记（五）Sparse Reward
10. 【完结】李宏毅深度强化学习笔记（四）Actor-Critic
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• 适用于PHP初学者的学习线路和建议

最新文章

1. 正确理解商业智能 BI 的价值所在
2. 解决梯度消失梯度爆炸强力推荐的一个算法-----LSTM（长短时记忆神经网络）
3. 解决梯度消失梯度爆炸强力推荐的一个算法-----GRU（门控循环神经⽹络）
4. HDU4565
5. 算概率投硬币
6. 密码算法特性
7. DICOMRT-DiTools：clouddicom源码解析(1)
8. HDU-6128
9. 计算机网络知识点详解（持续更新...）
10. hods2896(AC自动机）

本站公众号

欢迎关注本站公众号,获取更多信息

1. 李宏毅强化学习笔记【0.强化学习导论】
2. 强化学习--李宏毅
3. 李宏毅强化学习学习笔记-policy gradient and PPO
4. 李宏毅强化学习1
5. 【李宏毅-强化学习笔记】p1-p2、PPO
6. 李宏毅深度强化学习笔记（七）Sparse Reward
7. 李宏毅强化学习笔记【3.Actor-Critic】
8. 李宏毅强化学习笔记【5.Imitation Learning】
9. 【完结】李宏毅深度强化学习笔记（五）Sparse Reward
10. 【完结】李宏毅深度强化学习笔记（四）Actor-Critic

>>更多相关文章<<