强化学习《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》论文阅读笔记

时间 2020-12-29

原文原文链接

《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》引言最近接触到了一个新的概念policy gradient。在强化学习当中，基本思想是根据当前的状态，计算采取每个动作的价值，然后根据价值去贪心选择动作。如果省略中间步骤，直接根据状态，输出动作，也就是强化学习当中另外一种重要的方法。具体的大家可以参考这一篇博客这一篇文章，主要是在a

>>阅读原文<<