Transformer面试总结

1. Transformer的位置信息和bert的位置信息有什么不一样? Transformer计算token的位置信息这里使用正弦波↓,类似模拟信号传播周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。 但BERT直接训练一个position embedding来保留位置信息,每个位置随机初始化一个向量,加入模型训练,最后就得到一个包含位置信息的embedding,最后这个positi
相关文章
相关标签/搜索
本站公众号
   欢迎关注本站公众号,获取更多信息