Transformer面试总结

时间 2021-01-12

原文原文链接

1. Transformer的位置信息和bert的位置信息有什么不一样？ Transformer计算token的位置信息这里使用正弦波↓，类似模拟信号传播周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。但BERT直接训练一个position embedding来保留位置信息，每个位置随机初始化一个向量，加入模型训练，最后就得到一个包含位置信息的embedding，最后这个positi

>>阅读原文<<

1. Transformer模型总结
2. Transformer 笔记总结
3. 面试总结
更多相关文章...
• Lua 调试(Debug) - Lua 教程
• Eclipse Debug 调试 - Eclipse 教程
• 算法总结-双指针
• 算法总结-回溯法