阿里云峰会 | AI搜题加速在线教育行业场景创新

简介:过去的2020年的让全部人难忘的一年,受新冠疫情的影响,各行各业都在挑战中变化,在教育方面也催生了新的商业格局。在线教育平台发展迅猛,阿里云也积极相应,为在线教育的众多客户提供了高效稳定的技术保障。本文介绍了阿里云开放搜索为在线教育掠夺流量的重要工具-拍照搜索的技术原理。

分享人:徐光伟(昆卡) 阿里巴巴达摩院算法专家算法

了解更多解决方案详情:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch安全

搜索是在线教育企业流量获取的利器

image

截至2020年12月份教育行业月活TOP10的统计,其中具有搜题能力的软件多达5个,拍照搜题做为产品能力,能够帮助客户获取大量用户以及流量,从而为其余产品提供变现能力,正是因为这样定位,拍照搜题总体准确性和搜索效率都成为相当重要的一点,因此开放搜索对此作了不少订制优化。架构

教育搜题业务特色

image

对于教育搜题业务场景概括了三大特色:app

第一点海量题库,教育题库都是属于千万级别甚至到亿级别,并且不断的持续增加;同时搜题业务存在很明显的高峰现象,例如晚上七八点,节假日最后一天,这时搜题会存在很是高的QPS的波峰;搜索延迟会严重影响用户的体验。工具

第二点场景丰富,拍照搜题涵盖的场景愈来愈丰富,包括不一样的年龄段,例如低年级搜题主要围绕拍照看图识字或连线题,须要更多的图片信息的题目;还包括不一样的学科,目前支持的学科多达十多种,所以丰富的场景就会对搜索效果带来更大的挑战。优化

第三点算法需求,拍照搜题产品形态通常只会展示TOP3或者TOP5的结果,正是由于这样设定,准确性对于拍照搜题来讲相当重要,同时拍照搜题还会涉及到多模态和多语言处理能力,解决图文搜索和多语言处理的需求。搜索引擎

开放搜索教育搜题方案架构

image

阿里云开放搜索的拍照搜题解决方案,当用户经过拍照通过OCR识别以后的文本,通过开放搜索引擎处理后会返回TOP3-5的结果给用户获得展现,而且针对企业题库数据严格保证数据的安全和隐私。阿里云

教育搜题算法能力

查询分析算法优化完整的处理流程

image

教育行业分词和学科类目预测

image

分词在拍照搜题场景下存在两大难点,第一点英文题目OCR识别以后空格缺失,左边第一个图能够看到,即使针对很长没有空格的英文文本,模型也是能够很是准确的作正确的切分。第二个难点是数学题目公式表示以后的切分,左边第二个图能够看到数学符号部分都作出正确的切分。spa

类目预测在拍照搜题场景下对应的就是学科的预测和题型的预测,咱们结合图片以及OCR识别以后的文本信息作多模态预测,从而提升搜题准确率。日志

多路召回排序技术

image

因为拍照搜题业务场景的特殊性,开放搜索还引入了多路召回排序技术。

为何要作多路召回呢?

教育拍照搜题相比传统的网页或者电商的搜索存在明显的差别,第一点是搜索的Query特别长,第二点是搜索的Query由拍照OCR识别以后获得的文本,其中关键TERM识别错误的话,就会严重影响召回排序。

传统的纯文本查询方案包括两种,第一种是OR逻辑查询,第二种AND逻辑查询,AND逻辑查询上基于咱们刚才说到的针对教育领域优化定制的Query模块分析以后大幅提升效果,如今能够作到准确性接近OR逻辑。

image

如何兼顾搜索计算开销以及搜索的准确率呢?

引入了文本的向量召回,对文本向量召回技术优化了三点,

第一点是其中的BERT模型咱们采用达摩院自研的StructBERT,并针对于教育行业作了定制,同时对BERT模型作压缩加速。

第二点是向量检索引擎采用达摩院自研的Proxma引擎,准确性和速度都超越开源系统。

第三点训练数据能够基于客户的搜索日志不断积累,效果持续提高。

从右边的图能够看到,最终咱们在基于两侧的BERT模型就能够达到很是好的效果,准确性超过OR逻辑3%—5%,总体召回DOC数量减小40倍,Latecy下降10倍以上。

搜题效果展现

image

举例两个具体搜题的case,左边这个case能够看到其中由于问题中的文字描述和题库中文字描述不一致,传统搜索引擎返回的结果相关性极差,通过咱们引入语意向量召回以后右边TOP3结果彻底符合题意。第二个case由于这个题目中包含图片的信息,传统的搜索引擎没法作到准确的召回,基于咱们多路召回引入图象信息以后TOP1返回彻底一致的题目。

开放搜索解决方案优点

image

案例一:某K12的教育用户,用户数达到千万级别,题库量在八千万左右并且在持续增长,客户接入开放搜索以后返回搜题准确率提高45%,延迟降到50%毫秒。

案例二:某高职教育客户,产品DAU三百万,月活一千万,客户接入以后反馈对比他们原先自建的系统,在高峰时候耗时大于两秒,如今开放搜索能够稳定在50毫秒,同比降低40倍。TOP5题目搜索准确率提高2.4%搜索结果从原来40%降到不到1%,业务高峰期能够实现秒级平滑扩容。

得到专家指导:

https://survey.aliyun.com/apps/zhiliao/6R4u6vilI

本文内容由阿里云实名注册用户自发贡献,版权归原做者全部,阿里云开发者社区不拥有其著做权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。若是您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将马上删除涉嫌侵权内容。
相关文章
相关标签/搜索