Normalized and Geometry-Aware Self-Attention Network for Image Captioning

时间 2020-12-30

原文原文链接

重点在自注意力机制的image captioning方法上。现有的Self-Attention方法作者认为存在两个问题：一个是：Internal Covariate Shift 我的理解就是输入分布不一样解决办法就是Normalization。原来的Transformer当中也是有Normalization的，但是作者认为原来的做法不够好：翻译过来，就是要把norm放到自注意力模块里面