七月算法强化学习 第三课 学习笔记

Unknown Environment MDP Control 基本思路:广义策略迭代(策略评估+策略改进) 如何保证每个状态行为对(Q,a)都可以被访问到? 确保历经每个状态行为对, π(a|s) > 0 for all a, s 每次迭代确保 π’≥π(回顾policy ordering) 实时在线决策: 1)ExploitaAon:基于之前所有的信息做出最优选择&收集更多信息 2)最好的长远
相关文章
相关标签/搜索