从Multi-arm Bandits问题分析 - RL进阶

时间 2021-01-13

原文原文链接

【上一篇强化学习（Reinforcement Learning, RL）初步介绍】【下一篇有限马尔可夫决策过程（Finite Markov Decision Processes）】　　RL与其他学习方法最大的区别在于它使用的训练信息是对actions的评价，而其他方法是给出正常的actions。这一次的教程就是通过一个具体的案例来对RL问题中的“evaluative aspect”进行介