第十四讲--深度增强学习

增强学习: 通过agent和environment交互 公式化: Markov property: 未来与过去无关,只取决于现在(前提是现在充分可观测) 由于含有随机性,采用最大化期望值来确定pi value function:给定初始态,reward的加权期望值 Q value function:给定初始态和初始行为,reward的加权期望值 --------------------------
相关文章
相关标签/搜索