七月算法强化学习第三课学习笔记

时间 2020-12-29

原文原文链接

Unknown Environment MDP Control 基本思路：广义策略迭代（策略评估＋策略改进）如何保证每个状态行为对(Q,a)都可以被访问到？确保历经每个状态行为对, π(a|s) > 0 for all a, s 每次迭代确保 π’≥π（回顾policy ordering）实时在线决策： 1）ExploitaAon:基于之前所有的信息做出最优选择&收集更多信息 2）最好的长远