强化学习(RLAI)读书笔记第二章多臂老虎机

第二章:多臂老虎机 把强化学习和其它类型的机器学习区分出来的一大特征就是,强化学习利用的是评估动做的训练数据而非指导哪一个动做是正确的数据。纯评估反馈是指只评价动做的好坏程度而不是评价动做是否是最好的。纯指导反馈是直接给出哪一个动做是最优的。指导反馈是监督学习的基础。算法 这一章学习评估反馈的简单形式,一个无关联设定的问题。学习这个例子能够清楚看到评估反馈和指导反馈的区别,而且怎么组合起来他们。这
相关文章
相关标签/搜索