动手深度学习 笔记9

Transformer 模型利用attention机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的tokens,上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。 Transformer同样基于编码器-解码器架构,与seq2seq的区别在于: Transformer blocks:将seq2seq模型重的循环网络替换为了Transformer Blocks,该模块
相关文章
相关标签/搜索