RL强化学习各种算法流程伪代码

时间 2021-01-15

原文原文链接

policy iteration value iteration 注：policy iteration使用bellman方程来更新value，最后收敛的value 即是当前policy下的value值（所以叫做对policy进行评估），目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value，最后收敛