机器学习方法篇(24)------理解RL中的MDP

时间 2021-01-19

原文原文链接

● 每周一言珍惜当下，是对未来最好的承诺。导语上一节介绍了增强学习的一些基本概念，并提到了增强学习被广泛应用的各种场景。那么，增强学习在这些应用当中到底是如何起作用的？换言之，增强学习的优化目标是什么？ MDP 我们知道， AlphaGo的核心技术是增强学习，我们不妨先仔细想一个问题：对于围棋对弈过程中的每一回合，落子之法究竟受到哪些因素的影响？抛开人类棋手可能受到的各种情感、心理上的干扰

>>阅读原文<<