策略梯度

时间 2021-01-12

标签 Policy Gradient 繁體版

原文原文链接

在看师兄的论文时，里面涉及到强化学习的 Policy Gradient 。看了网上好多博客，觉得公式推导太复杂了，断断续续地持续了三周。今天静下心来看了一遍，发现没有那么难，果然做学术还是不能浮躁啊！前言强化学习是机器学习的一个分支，但是它与我们常见监督式学习不太一样。从学习方式上讲强化学习更加接近人类的学习，例如当你接触一款新的电子游戏的时候，虽然看不懂屏幕的提示，但是经过自己的摸索也能掌握

>>阅读原文<<

1. 策略梯度
2. 策略梯度之---actor critic
3. 梯度下降策略
4. 策略梯度说明
5. Policy gradient(策略梯度详解)
6. [强化学习-6] 策略梯度
7. 强化学习策略梯度方法
8. 【RL】策略梯度的训练技巧
9. 强化学习(七)：策略梯度
10. 强化学习-策略梯度
更多相关文章...
• Redis内存回收策略 - Redis教程
• 二级缓存的并发访问策略和常用插件 - Hibernate教程
• 算法总结-广度优先算法
• 算法总结-深度优先算法