强化学习8.10

8.10推出算法 推出算法是基于应用于模拟轨迹的蒙特卡罗控制的决策时间规划算法,所有模拟轨迹都在当前环境状态下开始。他们通过平均从每个可能的行动开始的许多模拟轨迹的返回值然后遵循给定的策略来估计给定策略的行动值。当动作值估计被认为足够准确时,执行具有最高估计值的动作(或动作之一),之后从所得到的下一状态重新执行该过程。正如Tesauro和Galperin(1997)所解释的那样,他们尝试使用推出算
相关文章
相关标签/搜索