强化学习之蒙特卡洛价值预测

时间 2021-01-12

标签机器学习强化学习算法人工智能繁體版

原文原文链接

（1）蒙特卡洛增量更新推导（2）为什么蒙特卡洛算法只能用于可分片段的马尔可夫决策过程？ “可分片段"的含义是该马尔可夫决策过程长度有限，这样才能计算”总折扣奖励“，在实际操作中，如果遇到非常长的马尔可夫链或者无限马尔可夫链，会考虑”时序差分学习“。（3）蒙特卡洛特性蒙特卡洛方法：直接从经验片段进行学习。蒙特卡洛是模型无关的：未知马尔科夫决策过程的状态转移/奖励。蒙特卡洛从完整的片段中进行

>>阅读原文<<

强化学习 之 蒙特卡洛价值预测

强化学习之蒙特卡洛价值预测