RL:强化学习在任务式对话领域的优势

一、强化学习与监督学习的区别 强化学习是通过与环境交互获取reward来更新agent网络参数的。 监督学习是通过已有的标签数据来更新agent网络参数的。 强化学习并不需要正确的“输入/输出对”数据,强化学习‘强’就是因为其训练过程不需要准备大量的带标签的训练样本,它重视的是环境给予的反馈,训练是一个交互学习的过程。 监督需要大量正确的“输入/输出对”数据,它重视的是teacher作出的评判,训
相关文章
相关标签/搜索