用BERT与Milvus快速搭建对话机器人！

https://github.com/milvus-io/milvusgit

问答系统是天然语言处理领域一个很经典的问题，它用于回答人们以天然语言形式提出的问题，有着普遍的应用。其经典应用场景包括：智能语音交互、在线客服、知识获取、情感类聊天等。常见的分类有：生成型、检索型问答系统；单轮问答、多轮问答系统；面向开放领域、特定领域的问答系统。本文涉及的主要是在检索型、面向特定领域的问答系统，一般称之为——智能客服机器人。github

在过去，客服机器人的搭建一般须要将相关领域的知识（Domain Knowledge），转化为一系列的规则和知识图谱。构建过程当中重度依赖“人工”智能，换个场景，换个用户都须要大量的重复劳动。sql

随着深度学习在天然语言处理（NLP）中的应用，机器阅读能够直接自动从文档中找到匹配问题的答案。深度语言模型会将问题和文档转化为语义向量，从而找到最后的匹配答案。本文借助Google开源的Bert模型结合Milvus开源向量搜索引擎，快速搭建基于语义理解的对话机器人。api

| 总体架构

本文经过语义类似度匹配来实现一个问答系统，大体的构建过程：架构

获取某一特定领域里大量的带有答案的中文问题（本文将之称为标准问题集）。
使用Bert模型将这些问题转化为特征向量存储在Milvus中，同时Milvus将给这些特征向量分配一个向量ID。
将这些表明问题的ID和其对应的答案存储在PostgreSQL中。

当用户提出一个问题时：性能

经过Bert模型将之转化为特征向量
在Milvus中对特征向量作类似度检索，获得与该问题最类似的标准问题的id
在PostgreSQL得出对应的答案。

系统架构图以下（蓝色线是导入过程，黄色线是查询过程）：学习

接下来，将手把手教您搭建一个在线问答系统。搜索引擎

| 搭建步骤

在搭建以前您须要安装Milvus、Postgresql，具体安装步骤请参考官网。google

1.数据准备spa

本文中的实验数据来自：https://github.com/SophonPlus/ChineseNlpCorpus。

该项目下的FAQ问答系统中的金融数据集，咱们从中一共整理了33万条数据。结合这组数据，咱们能够快速搭建一个xx银行智能客服机器人。

2.生成特征向量

本系统使用了Bert已预训练好的一个模型。在启动服务前，须要下载该模型：https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

使用该模型将问题库转化为特征向量，以用于后续的类似度检索。更多bert服务相关可参考：https://github.com/hanxiao/bert-as-service

3.导入Milvus和PostgreSQL

将上述产生的特征向量归一化处理后导入Milvus中存储，而后j将Milvus返回的id以及该id对应的问题的答案导入PostgreSQL中。PostgreSQL中的表结构：

4.获取答案

用户输入一个问题，经过Bert产生特征向量后，在Milvus库中找出与之最类似的一个问题。本文采用的余弦距离来表示两个句子间的类似度，因为全部向量都进行了归一化，所以两个特征向量的余弦距离越接近1表示类似度也高越高。库中可能没有与用户给定问题比较类似的问题，因此在实践中咱们能够设定了一个阈值0.9，当检索出来的最类似的距离小于该阈值时，则返回本系统未收录相关问题的提示。

| 系统演示

系统初始界面以下：

在对话框中输入你的问题，将会收到对应的答案。如图：

| 总结

上述的问答系统搭建是否是很简单？有Bert模型的加持，你根本不须要预先对语料进行分类整理、标签化等工做。同时，得益于开源向量搜索引擎Milvus的高性能和可扩展性，系统能够支撑上亿级别的语料库。Milvus向量搜索引擎已经加入Linux AI (LF AI)基金会进行孵化，欢迎你们加入Milvus社区。让咱们一块儿加速AI技术的大规模落地。