深度加强学习David Silver(三)——动态规划的planning

本节课主要介绍:web 策略评估(Policy Evaluation) 策略迭代(Policy Iteration) 价值迭代(Value Iteration) 动态规划(DP, Dynamic Programming)扩展 压缩映射 动态规划是一种用来解决复杂问题的方法,它把问题打碎成多个子问题,逐一解决,而后再合并起来。这些复杂问题一般具有两个性质: 1. 最优解可以被分解为子问题 2. 这些
相关文章
相关标签/搜索