第十四讲--深度增强学习

时间 2021-01-02

原文原文链接

增强学习：通过agent和environment交互公式化： Markov property: 未来与过去无关，只取决于现在（前提是现在充分可观测）由于含有随机性，采用最大化期望值来确定pi value function：给定初始态，reward的加权期望值 Q value function：给定初始态和初始行为，reward的加权期望值 --------------------------