【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章 强化学习(下) ...

本文来自云栖社区官方钉群“Python技术进阶”,了解相关信息可以关注“Python技术进阶”。 时间差分学习与 Q 学习 具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程,但是智能体最初不知道转移概率是什么(它不知道T),并且它不知道奖励会是什么(它不知道R)。它必须经历每一个状态和每一次转变并且至少知道一次奖励,并且如果要对转移概率进行合理的估计,就必须经历多次。 时间差分学习(TD
相关文章
相关标签/搜索