深度增强学习——Q-learning和决策梯度

时间 2021-01-14

原文原文链接

深度增强学习——Q-learning和决策梯度一、什么是强化学习强化学习是指，我们有一个智能体（agent），能够在其环境（environment）中采取行动，也可以因为其行动获得奖励，它的目标是学会如何行动以最大限度地获得奖励。强化学习多是一种动态规划的思路，使用生活化语言描述，就叫做：实践出真知。与之前学过的监督学习和无监督学习不同，强化学习本身并不依赖于数据或者数据的标签，而是依赖于对输

>>阅读原文<<