【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章强化学习（下） ...

时间 2020-12-29

原文原文链接

本文来自云栖社区官方钉群“Python技术进阶”，了解相关信息可以关注“Python技术进阶”。时间差分学习与 Q 学习具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程，但是智能体最初不知道转移概率是什么（它不知道T），并且它不知道奖励会是什么（它不知道R）。它必须经历每一个状态和每一次转变并且至少知道一次奖励，并且如果要对转移概率进行合理的估计，就必须经历多次。时间差分学习（TD

>>阅读原文<<

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章 强化学习（下） ...

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章强化学习（下） ...