谷歌发布 AI 语言模型 ELECTRA,将做为 TensorFlow 上的开源模型

在最近的一项研究中,Google 的研究人员提出了“有效学习一种对令牌替换进行准确分类的编码器”(ELECTRA),这是一种 AI 语言训练技术,在具备相同数量的计算资源的状况下,其性能优于现有方法。在发布数月后的这一周,合著者发布了 TensorFlow 的代码库(和预训练的模型),为强大的模型奠基了基础,这些模型可以以最新的准确性执行语言任务。这些模型可能有一天会进入客户服务聊天机器人,或者可能被合并到为执行团队总结报告的工具中。less

预训练方法一般分为两类:语言模型(例如OpenAI的GPT),该模型从左到右处理输入文本并根据给定的上下文预测下一个单词;以及屏蔽语言模型(例如Google的BERT和ALBERT以及Facebook的语言模型)RoBERTa),它能够预测输入中被掩盖的少许单词的身份。屏蔽语言模型的优点在于,它们能够“看到”要预测的令牌(即单词)左右两侧的文本,可是它们的预测仅限于输入令牌的一小部分,从而减小了学习量从每一个句子。工具

ELECTRA的秘密秘诀是一项称为替换令牌检测的预训练任务,它能够在从全部输入位置学习的同时训练双向模型(就像被屏蔽的语言模型同样),就像语言模型同样。该区分模型的任务是区分“真实”和“伪造”输入数据。ELECTRA经过用不正确的伪造品(但有些合理的伪造品)替换某些令牌来“破坏”输入,而后,它要求模型肯定哪些令牌已被替换或保持不变。性能

图片描述

替换令牌来自另外一个称为生成器的AI模型。生成器能够是在令牌上产生输出分布的任何模型,可是Google研究人员使用了与鉴别器一块儿训练的小型屏蔽语言模型。生成器和鉴别器共享相同的输入词嵌入。在预训练阶段以后,将生成器放下,并在各类下游任务上微调鉴别器(ELECTRA模型)。学习

该团队报告说,在实验中,ELECTRA比之前的方法“有了实质性的改进”,使用不到25%的计算量,其性能与RoBERTa和XLNet至关。在4天的时间里,在单个图形卡(计算的1/30)上训练了一个小的ELECTRA模型以后,研究人员设法超越了GPT。借助使用大量计算进行训练的大型ELECTRA模型,他们在SQuAD 2.0问答数据集和GLUE语言理解任务排行榜上得到了最早进的性能。(ELECTRA在GLUE上没有击败Google本身的T5-11b,但研究代表它的大小是其的1/30,并使用10%的计算进行训练。)google

图片描述

当使用少于1/4的计算量时,ELECTRA能够在GLUE天然语言理解基准上与RoBERTa和XLNet的性能相匹配,并在SQuAD问答基准上达到最新的结果。ELECTRA的出色效率意味着即便在小规模的状况下也能很好地运行-能够在几天内在单个GPU上进行训练,其准确性要高于GPT(该模型使用30倍以上的计算能力)。ELECTRA已在TensorFlow之上做为开源模型发布,其中包括许多现成的预训练语言表示模型。编码

学生研究员Kevin Clark和Google Brain高级研究科学家Thang Luong在博客中写道:“ ELECTRA只需不多的示例就能够达到相同的性能,由于它每一个示例都收到模式训练信号。” “与此同时,RTD带来了功能强大的表示学习,由于模型必须学习数据分布的准确表示才能解决任务。”spa

原文连接:https://venturebeat.com/2020/...blog

clipboard.png

相关文章
相关标签/搜索