强化学习导论 第二章

作者:剑圣 链接:https://zhuanlan.zhihu.com/p/27323995 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。   区分强化学习和其他种类的学习方式最显著的特点是:在强化学习中,训练信息被用于评估动作的好坏,而不是用于指导到底该是什么动作。这也是为何需要主动去做exploration的原因。纯粹的评估性反馈可以表明一个动作的好坏、但并
相关文章
相关标签/搜索