RL：强化学习在任务式对话领域的优势

时间 2021-01-18

标签 NLP 繁體版

原文原文链接

一、强化学习与监督学习的区别强化学习是通过与环境交互获取reward来更新agent网络参数的。监督学习是通过已有的标签数据来更新agent网络参数的。强化学习并不需要正确的“输入/输出对”数据，强化学习‘强’就是因为其训练过程不需要准备大量的带标签的训练样本，它重视的是环境给予的反馈，训练是一个交互学习的过程。监督需要大量正确的“输入/输出对”数据，它重视的是teacher作出的评判，训

>>阅读原文<<