QUANT[18]强化学习(Reinforcement Learning)学习笔记6

Reinforcement Learning:An Introduction NOTE[4] Limitations and Scope 局限性与适用范围 从前面的讨论中,应该清楚的是,强化学习很大程度上依赖于状态的概念。他既作为对策略和值函数的输入,也作为模型的输入和输出。非正式地,我们可以把状态看作是传达给代AGT的某种特定时期“环境如何”的信号。状态的形式定义在第3章中给出的马尔可夫决策过程
相关文章
相关标签/搜索