RL强化学习各种算法流程伪代码

policy iteration value iteration 注:policy iteration使用bellman方程来更新value,最后收敛的value 即 是当前policy下的value值(所以叫做对policy进行评估),目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value,最后收敛
相关文章
相关标签/搜索