策略梯度

在看师兄的论文时,里面涉及到强化学习的 Policy Gradient 。看了网上好多博客,觉得公式推导太复杂了,断断续续地持续了三周。今天静下心来看了一遍,发现没有那么难,果然做学术还是不能浮躁啊! 前言 强化学习是机器学习的一个分支,但是它与我们常见监督式学习不太一样。从学习方式上讲强化学习更加接近人类的学习,例如当你接触一款新的电子游戏的时候,虽然看不懂屏幕的提示,但是经过自己的摸索也能掌握
相关文章
相关标签/搜索