Facebook 开源天然语言处理模型，可检索文档回答问题

时间 2020-09-30

标签开源天然语言处理模型检索文档回答问题栏目硅谷繁體版

原文原文链接

Facebook 和 AI 初创公司 Hugging Face 今天开源了一种 AI 模型检索加强生成（RAG），这是一种天然语言处理模型，能够查找和解释上下文信息来完成一系列任务。数据库

RAG 能够经过经过动态地改变或补充其内部知识，使研究人员可以控制模型掌握的内容，研究人员没必要对其计算能力进行再培训就能够得到最早进的结果。segmentfault

从今天开始，RAG 能够做为 Hugging Face 转换器库的组件提供，与新的数据库集成，提供 RAG 所依赖的索引知识源。安全

RAG 整合知识的“后期融合”方式

天然语言理解领域的前沿工做已经产生了通用模型，这些模型虽然经常存在缺陷，可是是能够推广的。到目前为止，大多数模型已经应用于无需知识背景就能够生成解决方案的任务中，好比情绪分析这类任务。网络

相比之下 RAG 使用输入数据从像 Wikipedia 这样的数据库中检索相关的文档。例如，给出一个“地球上第一个哺乳动物是何时出现的？”的问题，RAG 可能会提供“哺乳动物”、“地球历史”、“哺乳动物进化”等文献做为上下文与输入链接，而后输入模型以生成输出文本。性能

根据 Facebook 的说法，RAG 利用了一种“后期融合”的形式来整合检索到的文档中的知识，这意味着它在聚合最终的预测分数以前对文档问题对进行答案预测。当它能够访问包含答案线索的文档时，若是答案不是逐字陈述的，RAG 的性能会进一步提升。在某些状况下，RAG 甚至会生成答案，而这些答案并不包含在检索到的任何文档中。测试

RAG 擅长知识密集型天然语言问题

Facebook 称，当对诸如包含来自 Google 搜索用户的问题的 NaturalQuestions 之类的开放域数据集进行基准测试时，RAG 显示了在找不到答案的状况下生成正确答案的诀窍。spa

RAG 还擅长于知识密集型的天然语言问题，Facebook 经过建立受 Jeopardy 启发的问题进行了探索。与其余同类模型相比，RAG 产生的问题更加具体、多样且更加真实。这也许是由于 RAG 可以利用从多个来源得到的不一样信息综合出不一样的答案的能力。blog

RAG 的研究经理 Sebastian Riedel 表示，虽然 RAG 在 Facebook 的生产中没有使用，但其背后的团队正在积极迭代以减小潜在的偏见。他们将培训数据集中的文档限制在 Wikipedia 上，他们认为 Wikipedia 比当今许多语言模型的网络爬虫更安全。索引

RAG 的最大优点：灵活性

研究人员正在探索 RAG 的一个版本，这个版本能够最大程度地下降剩余风险，以便达到一向的输出安全的程度。他们正在研究如何扩展 RAG，使其多通道化，并使其同时使用多个知识源进行操做。ip

Sebastian Riedel 说：“RAG 的真正优点在于它的灵活性，要改变一个预先训练过的语言模型所知道的东西，须要用新的文档对整个模型进行再训练。经过 RAG，咱们能够经过交换用于知识检索的文档来控制它所知道的内容。咱们在带有 RAG 的 NaturalQuestions，CuratedTrec 和 WebQuestions 上得到了很是出色的结果，代表能够用生成的而不是提取的读取器来实现最新的机器读取性能。”

Facebook 认为 RAG 具备广阔的潜力，它断言这将使研究人员可以仅用几行代码就能够为知识密集型任务部署解决方案。

Facebook 方面称，“RAG 容许 NLP 模型绕过再培训步骤，访问和提取最新的信息，而后使用生成器输出结果。咱们预见将来对知识密集型任务的研究潜力，这些任务就像今天的情绪分析这样的轻量级知识任务同样简单易懂。”