论文阅读：ByteNet, Neural Machine Translation in Linear Time

时间 2020-12-24

原文原文链接

Neural Translation Model 给定源语言 string s , 通过网络模型来估计目标语言string t 的概率分布 p(t|s) 。　　与PixelCNN类似， t 的联合概率分布可以通过链式法则转化为连续的 p(ti|t<i,s) 条件概率的乘积。 strings通常是各自语言中的句子，string中的每一个token则是字母（或者单词）。模型包括以下两个部分：