强化学习(reinforcement learning)学习笔记(二)——值迭代与策略迭代

时间 2021-01-12

标签动态规划强化学习值迭代策略迭代算法繁體版

原文原文链接

上一次我分享了强化学习相关基础概念，推导了Bellman方程。这次我们来学习求解强化学习模型的2种思路——值迭代与策略迭代动态规划这里面我要简单介绍一下动态规划，因为严格来说，值迭代与策略迭代是用来解决动态规划问题的两种规划方法。而强化学习又有另外一个昵称——就是拟动态规划。说白了强化学习就是模拟动态规划算法。用一句话来总结动态规划就是，对一个复杂问题给出一个一般性的解决办法。它主要由两个性

>>阅读原文<<