《Longformer: The Long-Document Transformer》()论文阅读

前言 论文地址:https://arxiv.org/pdf/2004.05150.pdf 代码地址:https://github.com/allenai/longformer 1、Introduction 虽然 self-attention 的效果很好,但是它所需要的内存和算力会随序列呈平方增长。现在的方法大多是将上下文缩短或者划分为较小的序列,以限制这些序列再512的长度内。 为了解决这个问题,
相关文章
相关标签/搜索