【2017CS231n】第十四讲:深度增强学习

一.概述     强化学习:我们有一个代理,能够在其环境中采取行动,也可以因为其行动获得奖励,它的目标是学会如何行动以最大限度地获得奖励。       这节主要讲了以下几个问题:什么是强化学习,马尔科夫决策过程(这是对强化学习问题的数学抽象),然后是两类主要的强化学习算法:Q-learning,策略梯度算法。 二.强化学习     在强化学习中我们有一个代理和一个环境,环境赋予代理一个状态,反过来
相关文章
相关标签/搜索