Bourne强化学习笔记3：在简单的Bandit问题中抓住强化学习的本质

时间 2020-12-31

原文原文链接

强化学习最重要的特点是利用训练信息来评估动作，而不是指出最优动作。这就要求需要探索（explore）多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度，但没有直接指出哪个动作是最好或最坏的；而后者可以指导处哪个动作是最好的，并且该指导反馈与已经发生的动作无关。这也是非监督学习（评价性反馈）与监督学习（指导性反馈）的区别。评价性反馈完全依赖于所选择的动作（即所产生的样本），而指导性反馈则与所

>>阅读原文<<