从Multi-arm Bandits问题分析 - RL进阶

【上一篇 强化学习(Reinforcement Learning, RL)初步介绍 】 【下一篇 有限马尔可夫决策过程(Finite Markov Decision Processes)】算法   RL与其余学习方法最大的区别在于它使用的训练信息是对actions的评价,而其余方法是给出正常的actions。这一次的教程就是经过一个具体的案例来对RL问题中的“evaluative aspect”进
相关文章
相关标签/搜索