强化学习《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》论文阅读笔记

《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》 引言 最近接触到了一个新的概念policy gradient。在强化学习当中,基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值去贪心选择动作。如果省略中间步骤,直接根据状态,输出动作,也就是强化学习当中另外一种重要的方法。具体的大家可以参考这一篇博客 这一篇文章,主要是在a
相关文章
相关标签/搜索