智能问答即给定天然语言问题,经过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。与对话系统、对话机器人的交互式对话不一样,智能问答具备如下特色:
答案:回答的答案是知识库中的实体或实体关系,或者no-answer(即该问题在KB中找不到答案),固然这里答案不必定惟一,好比 中国的城市有哪些 。而对话系统则回复的是天然语言句子,有时甚至须要考虑上下文语境。评价标准:召回率 (Recall),精确率 (Precision) ,F1-Score。而对话系统的评价标准以人工评价为主,以及BLEU和Perplexity。
知识库问答的主流方法
语义解析(Semantic Parsing):该方法是一种偏linguistic的方法,主体思想是将天然语言转化为一系列形式化的逻辑形式(logic form),经过对逻辑形式进行自底向上的解析,获得一种能够表达整个问题语义的逻辑形式,经过相应的查询语句(相似lambda-Caculus)在知识库中进行查询,从而得出答案。
信息抽取(Information Extraction):该类方法经过提取问题中的实体,经过在知识库中查询该实体能够获得以该实体节点为中心的知识库子图,子图中的每个节点或边均可以做为候选答案,经过观察问题依据某些规则或模板进行信息抽取,获得问题特征向量,创建分类器经过输入问题特征向量对候选答案进行筛选,从而得出最终答案。
向量建模(Vector Modeling): 该方法思想和信息抽取的思想比较接近,根据问题得出候选答案,把问题和候选答案都映射为分布式表达(Distributed Embedding),经过训练数据对该分布式表达进行训练,使得问题和正确答案的向量表达的得分(一般以点乘为形式)尽可能高模型训练完成后则可根据候选答案的向量表达和问题表达的得分进行筛选,得出最终答案。
KGB知识图谱现已实现如下功能:1.文档解析:KGB知识图谱引擎,可轻松解析多种格式与版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。尤为是PDF文件,可直接解析输出为word格式文件,保留文件中表格与文字格式等重要信息。对于图片信息,OCR可自动识别并抽取图片中的文字信息。2. 知识抽取:KGB知识图谱引擎,可从结构化表格与非结构化文本中自适应识别并抽取关键知识(主体、客体、时间、地点、金额、条款等),准确率高达90%,实现知识的快速生成。三、知识关联:KGB知识图谱引擎深刻挖掘知识关联,将一个个知识实体连接为具备完整意义的知识事实。并具备强大的知识推理能力,推理出暗含的知识与结论,丰富知识图谱。四、知识较验:KGB知识图谱加工厂可以对知识质量智能校验,包括对多种知识错误与冲突进行自动智能核查与修正,更有知识工程师进行知识精准校验,保证知识图谱的准确性。
在行业应用方面,KGB知识图谱具备如下特点:一、跨领域可扩展:知识图谱加工厂具备通用的图谱构建引擎。知识抽取、知识关联与质量核查过程不依赖特定业务知识,结合用户知识图谱构建的需求,能够快速构建用户领域知识图谱。二、知识质量智能核查:知识图谱加工厂实现对多种知识错误与冲突的智能核查与校验,并对知识库进行实时自动更新,保证知识图谱准确性。三、人机结合的服务:知识图谱加工场人机构成:90%机器+10%的人工,只须要提供语料,就能够快速获得对应的知识图谱构建成果。分布式