【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.2】基于表格型方法求解RL

时间 2021-01-10

标签深度学习强化学习神经网络繁體版

原文原文链接

一、课程内容 2.基于表格型方法求解RL 2.1 MDP、Q表格强化学习的基本思路来源于马尔科夫决策过程Markov Decision Process（MDP）：在设计强化学习方法中，model-free和model-based的区别主要在于是否对policy和reward有预先建模：根据不同场景，reward函数可能会有所不同：比如救护车场景，是有尽头的，每闯一个红灯，时间上收益差不多，

>>阅读原文<<