从Multi-arm Bandits问题分析 - RL进阶

【上一篇 强化学习(Reinforcement Learning, RL)初步介绍 】 【下一篇 有限马尔可夫决策过程(Finite Markov Decision Processes)】   RL与其他学习方法最大的区别在于它使用的训练信息是对actions的评价,而其他方法是给出正常的actions。这一次的教程就是通过一个具体的案例来对RL问题中的“evaluative aspect”进行介
相关文章
相关标签/搜索