Petuum提出序列生成学习算法通用框架

时间 2020-12-24

原文原文链接

近日，来自人工智能创业公司 Petuum 的研究人员发表论文，提出序列生成学习算法的通用框架——广义的熵正则化策略优化框架（Generalized Entropy-Regularized Policy Optimization）。该框架是对包括最大似然学习 (MLE)、增强学习 (RL) 等多种广泛使用的算法的泛化。研究人员进而提出一种新的序列生成算法，该算法在已有算法中进行动态插值，在机器翻译和