为什么position embedding就是相加一个随机矩阵

position embedding BERT 里的实现: 要思考一个问题,什么是position embedding, 就是: 如果每个position的位置用0,1,2,3,4…来表示的话, 怎样像word embedding似的输进模型里呢, 就是两种办法: one-hot 或者 把position的0,1,2,3,4看成word id一样用embedding_lookup表示成和word
相关文章
相关标签/搜索