强化学习及其在NLP上的应用

时间 2020-12-31

原文原文链接

what is RL? RL输入是一个序列，很大程度上两次输入的相关联 Different kinds of RL 线性或非线性拟合会有几个问题：1、默认数据独立同分布，但是输入数据间有关联 2、target不稳定，label 好坏程度或正确程度不稳定 DQN对其进行三方面改进：1、深度卷积神经网络拟合能力比较强 2、通过之前的样本或者别人的样本进行训练，主要是打乱样本之间的相关性状态－－》策