强化学习简介

强化学习是机器想里面非常重要的一个派别。智能体agent会不断执行一些操作,通过结果来学习,在不同的环境中分别应该采取怎样的行动。 一些常见的算法如: Q学习,深度Q网络 (DQN) ,策略梯度 (Policy Gradients) ,演员-评论家 (Actor-Critic) ,以及近端策略优化 (PPO)等。 奖励假说为根基 问题来了,目标为什么是预期累积奖励最大化? 因为,强化学习原本就是建
相关文章
相关标签/搜索