强化学习七天打卡营学习笔记

强化学习七天打卡营学习笔记 一、RL分类 根据环境是否可知可以分为 Model-based RL & Model-free RL,基于模型的RL的和无模型的RL; 按照学习目标可分为Value-based & Policy-based; 按照学习方式可以分为On-Policy & Off-Policy 二、强化学习的算法和环境 经典算法:Q-learning、Sarsa、DQN、Policy Gr
相关文章
相关标签/搜索