【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.2】基于表格型方法求解RL

一、课程内容 2.基于表格型方法求解RL 2.1 MDP、Q表格 强化学习的基本思路来源于马尔科夫决策过程Markov Decision Process(MDP): 在设计强化学习方法中,model-free和model-based的区别主要在于是否对policy和reward有预先建模: 根据不同场景,reward函数可能会有所不同: 比如救护车场景,是有尽头的,每闯一个红灯,时间上收益差不多,
相关文章
相关标签/搜索