Petuum提出序列生成学习算法通用框架

近日,来自人工智能创业公司 Petuum 的研究人员发表论文,提出序列生成学习算法的通用框架——广义的熵正则化策略优化框架(Generalized Entropy-Regularized Policy Optimization)。该框架是对包括最大似然学习 (MLE)、增强学习 (RL) 等多种广泛使用的算法的泛化。研究人员进而提出一种新的序列生成算法,该算法在已有算法中进行动态插值,在机器翻译和
相关文章
相关标签/搜索