NLP论文解读:Generating Long Sequences with Sparse Transformers

OpenAl提出了一种适用于文本、图像和语音的稀疏Transformer,将先前基于注意力机制的算法处理序列的长度提高了三十倍。 对复杂高维度的数据分布进行估计一直是非监督学习领域的核心问题,特别是针对像文本、语音、图像等长程、相关性数据更使得这一领域充满了挑战。同时,对于复杂数据的建模也是非监督表示学习的关键所在。 近年来,神经自回归模型在这一领域取得了一系列十分优秀进展,针对自然语言、原始音频
相关文章
相关标签/搜索