强化学习初系列1--简述强化学习（入门）

时间 2021-01-11

原文原文链接

1、基本原理如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。 Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。 2、强化学习VS监督学习目标：动态地调整参数，以达到强化信号最大若已知r/A梯度信息，则可直接使用监督学习算法。强化信号r与Agent产生的动作A没有明确的函数形式描述，所以梯度信息r/A无法得到。

>>阅读原文<<