【论文笔记】DCN-plus和FusionNet(2018)

这两个前BERT时期的模型可以说是把注意力玩出了花来,给我的感觉就像是穷尽算力和各种信息来推高准确率。但是,这两篇论文里有很多想法也是值得去思考的。通过学习这两个网络,我对注意力的运用模式有了更深的理解。 1.DCN+ 这个网络是对DCN的优化。DCN是全称dynamic coattention networks,动态协同注意力网络。其大致的网络架构图如下图所示: 其中两个部分的encoder没什
相关文章
相关标签/搜索