Compact Multi-Head Self-Attention 低秩因子分解

时间 2021-07-14

标签深度学习繁體版

原文原文链接

paper：https://arxiv.org/pdf/1912.00835.pdf Proposed Model 首先对文档(评论或新闻文章)进行标记，然后通过查找将其转换为嵌入到预先训练好的嵌入矩阵中。每个标记的嵌入通过bi-GRU语句编码器进行编码，以获得该语句中每个单词的上下文注释。LAMA的注意机制通过计算单词级上下文向量对这些单词的隐藏表示的对齐分数，从而获得这些单词上的多个注意分布。

>>阅读原文<<

1. 低秩分解
2. 低秩矩阵分解
3. selfattention
4. 网络压缩-一、低秩分解
5. 范数与低秩
6. 满秩分解
7. 非负矩阵分解低秩矩阵分解
8. 如何理解SelfAttention
9. selfattention记录
10. 素因子分解
更多相关文章...
• R 因子 - R 语言教程
• MySQL子查询详解 - MySQL教程
• 常用的分布式事务解决方案
• Git五分钟教程