Compact Multi-Head Self-Attention 低秩因子分解

paper:https://arxiv.org/pdf/1912.00835.pdf Proposed Model 首先对文档(评论或新闻文章)进行标记,然后通过查找将其转换为嵌入到预先训练好的嵌入矩阵中。每个标记的嵌入通过bi-GRU语句编码器进行编码,以获得该语句中每个单词的上下文注释。LAMA的注意机制通过计算单词级上下文向量对这些单词的隐藏表示的对齐分数,从而获得这些单词上的多个注意分布。
相关文章
相关标签/搜索