BERT 可解释性-从“头”说起

文章目录 一、背景介绍 二、Bert 模型 Attention-Head 实验 2.1 Attention-Head 比较冗余 2.2 某些 head 负责判断词的边界 (使得字模型带有分词信息) 2.3 某些 head 负责编码输入的顺序 2.4 某些 head 负责 query 和 title 中相同部分的 term 匹配 2.4.1 finetune 对于负责 term 匹配 attenti
相关文章
相关标签/搜索