对马尔科夫决策过程的代码补充解释

时间 2021-01-20

原文原文链接

　　这篇文章是https://www.cnblogs.com/chester-cs/p/12928649.html的代码补充解释，这里我仅仅实现了Value迭代，Policy迭代读者可以尝试自己实现。　　学习了MDP即马尔科夫决策过程之后我就想用代码实现实现，想看看机器是如何不断优化自身的。　　考虑这样一个世界：　　有奖励，有陷阱，有阻碍。给Agent发出指令后Agent的行为是非确定的。