强化学习及其在NLP上的应用

what is RL? RL输入是一个序列,很大程度上两次输入的相关联 Different kinds of RL 线性或非线性拟合会有几个问题:1、默认数据独立同分布,但是输入数据间有关联 2、target不稳定,label 好坏程度或正确程度不稳定 DQN对其进行三方面改进:1、深度卷积神经网络拟合能力比较强  2、通过之前的样本或者别人的样本进行训练,主要是打乱样本之间的相关性 状态--》策
相关文章
相关标签/搜索