Transformer中16个注意力头一定要比1个注意力头效果好吗？

时间 2021-01-12

原文原文链接

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶” 作者：Paul Michel 编译：ronghuaiyang 导读多头注意力中的冗余分析，看看是否可以在不影响性能的情况下做剪枝。 “Hercules Slaying the Hydra”, Sebald Beham, 1545 (source: Art Institute of Chicago) 自Vaswani等人提出transfo