Normalized and Geometry-Aware Self-Attention Network for Image Captioning

重点在自注意力机制的image captioning方法上。 现有的Self-Attention方法作者认为存在两个问题: 一个是:Internal Covariate Shift 我的理解就是输入分布不一样 解决办法就是Normalization。 原来的Transformer当中也是有Normalization的,但是作者认为原来的做法不够好: 翻译过来,就是要把norm放到自注意力模块里面
相关文章
相关标签/搜索