【2017CS231n】第十四讲：深度增强学习

时间 2021-01-12

原文原文链接

一.概述强化学习：我们有一个代理，能够在其环境中采取行动，也可以因为其行动获得奖励，它的目标是学会如何行动以最大限度地获得奖励。这节主要讲了以下几个问题：什么是强化学习，马尔科夫决策过程（这是对强化学习问题的数学抽象），然后是两类主要的强化学习算法：Q-learning，策略梯度算法。二.强化学习在强化学习中我们有一个代理和一个环境，环境赋予代理一个状态，反过来

>>阅读原文<<