为什么position embedding就是相加一个随机矩阵

时间 2021-01-15

原文原文链接

position embedding BERT 里的实现：要思考一个问题，什么是position embedding，就是：如果每个position的位置用0,1,2,3,4…来表示的话，怎样像word embedding似的输进模型里呢，就是两种办法： one-hot 或者把position的0,1,2,3,4看成word id一样用embedding_lookup表示成和word