Arxiv连接ui
上下文嵌入(Bert词向量): 何时值得用?设计
ACL 20183d
预训练词向量 (上下文嵌入Bert,上下文无关嵌入Glove, 随机)详细分析文章blog
优势 | 效果显著 |
缺点 | 成本昂贵 (Memory,Time, Money) (GPT-3,1700亿的参数量) |
困惑 | 线上环境,资源受限(内存 CPU GPU) bert不必定是最佳 选择 用word2vec, glove等词向量有时候也能取得近似效果 但何时能够近似,须要实验说明,因而做者设计了实验 |
类型 | 说明 | 实验 |
---|---|---|
上下文词嵌入 | BERT XLNet | 做者实验中选BERT 768维 |
上下文词无关嵌入 | Glove Word2Vec FastText | 做者实验中选Glove 300维 |
随机嵌入 | n*d矩阵 (n是词汇量, d是嵌入维度) | 做者实验中选循环随机嵌入 800维, 空间复杂度O(nd) => O(n) |
任务 | 模型 |
---|---|
命名实体识别 (NER) | BiLSTM |
情感分析 (sentiment analysis) | TextCNN |
在许多任务中,供充足的数据,GloVe这些词向量可匹配BERTtoken
NER: 实体占据几个token (George Washington)内存
Sentiment analysis:句子依存分析中依赖标记对之间的平均距离资源
NER: 实体有几个标签(George Washington能够做为人名、地名、组织名)get
Sentiment analysis:
\begin{array}{l}
H\left( {\frac{1}{{\left| S \right|}}\sum\limits_{w \in S} {p\left( { + 1\left| w \right.} \right)} } \right) \
{\rm{where }}H\left( p \right) = - p{\log _2}\left( p \right) - \left( {1 - p} \right){\log _2}\left( {1 - p} \right) \
\end{array}it
NER: token出现次数得倒数table
Sentiment analysis:
给定一个句子,句子中未在训练集中出现token占比
文本结构复杂度高和单词歧义性方面: BERT更好
未登陆词方面: GloVe 更好
大量训练数据和简单语言的任务中,考虑算力和设备等,GloVe 表明的 Non-Contextual embeddings 是个不错的选择
对于文本复杂度高和单词语义歧义比较大的任务,BERT表明的 Contextual embeddings 有明显的优点。
未登陆词方面: GloVe 更好