Bert原理详细笔记

1. 前言 bert 的本质是学习单词的词向量表达。那我们先来回顾 word2vec,和 bert 预训练产生词向量的不同吧! word2vec缺点: 学习到的是静态词向量,与上下文无关,如 “ I like to eat Apple" 和 ”Apple is a high-tech company in the United States“, 很显然这两个apple的意思不一样,但在Word2v
相关文章
相关标签/搜索