QUANT[18]强化学习(Reinforcement Learning)学习笔记6

时间 2021-01-02

标签强化学习繁體版

原文原文链接

Reinforcement Learning：An Introduction NOTE[4] Limitations and Scope 局限性与适用范围从前面的讨论中，应该清楚的是，强化学习很大程度上依赖于状态的概念。他既作为对策略和值函数的输入，也作为模型的输入和输出。非正式地，我们可以把状态看作是传达给代AGT的某种特定时期“环境如何”的信号。状态的形式定义在第3章中给出的马尔可夫决策过程

>>阅读原文<<