深度增强学习——Q-learning和决策梯度

深度增强学习——Q-learning和决策梯度 一、什么是强化学习 强化学习是指,我们有一个智能体(agent),能够在其环境(environment)中采取行动,也可以因为其行动获得奖励,它的目标是学会如何行动以最大限度地获得奖励。强化学习多是一种动态规划的思路,使用生活化语言描述,就叫做:实践出真知。与之前学过的监督学习和无监督学习不同,强化学习本身并不依赖于数据或者数据的标签,而是依赖于对输
相关文章
相关标签/搜索