继Transformer模型之后,我们再来介绍ELMo模型。
看到前面的,看不到后面的 看到后面的,看不到前面的 Deep contextualized word representations (深层上下文的词语表征) 好的Embedding
早于bert, 基于transormer。 单向的语言模型。 mask 遮盖,只能看见前面的。(单向)
无监督训练 有监督微调