transformer代码学习

pad_attn_mask = seq_k.data.eq(0).unsqueeze(1) eq函数是留下seq_k等于0的坐标,seq_k是enc_inputs feedforward层使用一维卷积,经常使用于天然语言处理 原本是 实现的是 class PoswiswFeedForwardNet(nn.Module): def init(self): super(PoswiswFeedFo
相关文章
相关标签/搜索