Transformer中16个注意力头一定要比1个注意力头效果好吗?

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者:Paul Michel 编译:ronghuaiyang 导读 多头注意力中的冗余分析,看看是否可以在不影响性能的情况下做剪枝。 “Hercules Slaying the Hydra”, Sebald Beham, 1545 (source: Art Institute of Chicago) 自Vaswani等人提出transfo
相关文章
相关标签/搜索