强化学习初系列1--简述强化学习(入门)

1、基本原理 如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。 Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。 2、强化学习VS监督学习 目标:动态地调整参数,以达到强化信号最大 若已知r/A梯度信息,则可直接使用监督学习算法。 强化信号r与Agent产生的动作A没有明确的函数形式描述,所以梯度信息r/A无法得到。
相关文章
相关标签/搜索