强化学习笔记(3) Monte-Carlo和TD

3_Monte-Carlo_RL 文章目录 1.1. 前言 1.1.1. 算法特性 1.1.2. 目标 1.2. 两种Monte-Carlo 估计价值函数 1.2.1. First Visit 1.2.2. Every Visit 1.2.3. 小tips: Incremental Mean 1.3. Monte Carlo Control (Approximate optimal policie
相关文章
相关标签/搜索