强化学习（RLAI）读书笔记第二章多臂老虎机

时间 2021-01-03

原文原文链接

第二章：多臂老虎机把强化学习和其它类型的机器学习区分出来的一大特征就是，强化学习利用的是评估动作的训练数据而非指导哪个动作是正确的数据。纯评估反馈是指只评价动作的好坏程度而不是评价动作是不是最好的。纯指导反馈是直接给出哪个动作是最优的。指导反馈是监督学习的基础。这一章学习评估反馈的简单形式，一个无关联设定的问题。学习这个例子可以清楚看到评估反馈和指导反馈的区别，并且怎么组合起来他们。这个例子就

>>阅读原文<<