#Datawhale_NLP Task6 基于Bert的文本分类

电脑配置:Anaconda3 + Pycharm

文章目录

  • transformer的原理
  • 预训练语言模型(Bert)的词表示

高永伟预训练语言模型BERT视频讲解笔记。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
句子A和句子B是两个挨着的句子,有紧密的上下文关系。因此,在下一句预测任务中,该句子对可以标记为True

在这里插入图片描述
segment embeddings 句子A和句子B 要再表征的过程中体现出这是两个句子。句子A和句子B可能不是一个连续的句子对。这一部分是为了后续下一句预测任务做准备。常见的表达式 E A E_{A} =1, E B E_{B} =1,这样segment embedding就是一个0-1向量
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
query矩阵的第一行代表第一个word
在这里插入图片描述
w 11 w_{11} 表示第一个单词放在第一个位置的可能性
w 1 F w_{1F} 表示第一个单词放在第F个位置的可能性
在这里插入图片描述

论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
论文 Transformer: Attention Is All You Need