强化学习 之 蒙特卡洛价值预测

(1)蒙特卡洛增量更新推导 (2)为什么蒙特卡洛算法只能用于可分片段的马尔可夫决策过程? “可分片段"的含义是该马尔可夫决策过程长度有限,这样才能计算”总折扣奖励“,在实际操作中,如果遇到非常长的马尔可夫链或者无限马尔可夫链,会考虑”时序差分学习“。 (3)蒙特卡洛特性 蒙特卡洛方法:直接从经验片段进行学习。 蒙特卡洛是模型无关的:未知马尔科夫决策过程的状态转移/奖励。 蒙特卡洛从完整的片段中进行
相关文章
相关标签/搜索