Soft Bellman Equation and Soft Value Iteration证明

  本节基础知识Soft Value function基础和Soft Q Learning中Policy Improvement 证明   首先回顾一下Soft value function的定义: V s o f f π ( s ) ≜ log ⁡ ∫ exp ⁡ ( Q s o f t π ( s , a ) ) d a V_{\mathrm{soff}}^{\pi}(\mathbf{s})
相关文章
相关标签/搜索