对马尔科夫决策过程的代码补充解释

  这篇文章是https://www.cnblogs.com/chester-cs/p/12928649.html的代码补充解释,这里我仅仅实现了Value迭代,Policy迭代读者可以尝试自己实现。   学习了MDP即马尔科夫决策过程之后我就想用代码实现实现,想看看机器是如何不断优化自身的。   考虑这样一个世界:  有奖励,有陷阱,有阻碍。给Agent发出指令后Agent的行为是非确定的。  
相关文章
相关标签/搜索