借助BERT论文, 梳理下天然语言处理当前常见的任务.ui
根据判断主题的级别, 将全部的NLP任务分为两种类型:lua
即BERT
模型预训练的两个任务之一, 等价于完形填空任务, 即给出句子中其余的上下午token
, 推测出当前位置应当是什么token
.code
解决这个问题就能够直接参考BERT
在预训练时使用到的模型: masked language model. 即在与训练时, 将句子中的部分token
用[masked]
这个特殊的token
进行替换, 就是将部分单词遮掩住, 而后目标就是预测[masked]
对应位置的单词.token
这种训练的好处是不须要人工标注的数据. 只须要经过合适的方法, 对现有语料中的句子进行随机的遮掩便可获得能够用来训练的语料. 训练好的模型, 就能够直接使用了.ip
这是一个生成式的任务. 样本为语句对. 给出一个问题, 和一段来自于Wikipedia的文本, 其中这段文本之中, 包含这个问题的答案, 返回一短语句做为答案.get
由于给出答案, 这是一个生成式的问题, 这个问题的特殊性在于最终的答案包含在语句对的文本内容之中, 是有范围的, 并且是连续分布在内容之中的.it
所以, 咱们找出答案在文本语句的开始和结尾处, 就能找到最后的答案. 经过对文本语句序列中每一个token对应的全部hidden vector作softmax判断是开始的几率和是结束的几率, 最大化这个几率就能进行训练, 并获得输出的结果.io
本质是对句子中的每一个token打标签, 判断每一个token的类别.class
经常使用的数据集有:pdf
Person
, Organization
, Location
, Miscellaneous
, or Other (non-named entity)
.天然语言推断任务, 即给出一对(a pair of)句子, 判断两个句子是entailment(相近), contradiction(矛盾)仍是neutral(中立)的. 因为也是分类问题, 也被称为sentence pair classification tasks.
在智能问答, 智能客服, 多轮对话中有应用.
经常使用的数据集有:
两个句子相关性的分类问题, NLI task
是其中的特殊状况. 经典的此类问题和对应的数据集有:
Quora
的问题句子在语义上是不是等价的.(question, answer)
对. 正样本为answer
是对应question
的答案, 负样本则相反.1~5
的评分评价二者在语义上的类似程度.给出一个陈述句子和4个备选句子, 判断前者与后者中的哪个最有逻辑的连续性, 至关于阅读理解问题.