七月算法强化学习 第二课 学习笔记

一.Unknown Environment MDP  1.回顾: 1)Known Environment MDP 策略评估 2)Known Environment MDP 寻找最优策略 2.Unknown Environment MDP 1)大多数时候模型未知,No knowledge of MDP transitions / rewards What do you do when don’t k
相关文章
相关标签/搜索