Q_learning在自然语言生成中的应用思考

Q_learning  from reinforcement learning 在学习Q_learning算法之前,我们需要了解一下,一个叫做时间差分学习的(temporal difference learning)思想。 它的迭代公式是: 其中是每个episode结束后获得的实际累积回报,α是学习率,这个式子的直观的理解就是用0实际累积回报作为状态值函数V()的估计值。具体做法是对每个episo
相关文章
相关标签/搜索