Reinforcement learning——an introduction强化学习翻译第二章

Chapter 2 Multi-armed Bandits ​ 强化学习与其他类型学习的区别最重要的特征是它使用训练信息来评估所采取的行动,而不是通过给出正确的行动来指导。这就是为什么需要积极探索,明确地寻找良好的行为。纯粹的评价性反馈表明所采取的行动有多好,但不是可能的最好还是最坏的行动。另一方面,纯粹的指导性反馈表明要采取的正确行动,而不是实际采取的行动。这种反馈是监督学习的基础,监督学习包括
相关文章
相关标签/搜索