机器学习方法篇(24)------理解RL中的MDP

● 每周一言 珍惜当下,是对未来最好的承诺。 导语 上一节介绍了增强学习的一些基本概念,并提到了增强学习被广泛应用的各种场景。那么,增强学习在这些应用当中到底是如何起作用的?换言之,增强学习的优化目标是什么? MDP 我们知道, AlphaGo的核心技术是增强学习,我们不妨先仔细想一个问题:对于围棋对弈过程中的每一回合,落子之法究竟受到哪些因素的影响? 抛开人类棋手可能受到的各种情感、心理上的干扰
相关文章
相关标签/搜索