Reinforcement Learning: value function approximation

introduction incremental methods增量法 state value function with prediction approximation action value function with control approximation batch methods批处理 introduction 上一节讲到使用采样的方法进行,状态和action space都比较小
相关文章
相关标签/搜索