Q_learning在自然语言生成中的应用思考

时间 2021-01-15

原文原文链接

Q_learning from reinforcement learning 在学习Q_learning算法之前，我们需要了解一下，一个叫做时间差分学习的(temporal difference learning)思想。它的迭代公式是：其中是每个episode结束后获得的实际累积回报，α是学习率，这个式子的直观的理解就是用0实际累积回报作为状态值函数V()的估计值。具体做法是对每个episo