简介:达摩院算法专家--徐光伟(昆卡)聚焦在线教育行业的拍照搜题场景,介绍如何应用开放搜索来构建更高搜索性能及搜题准确率的搜题系统,从而助力在线教育行业客户掌握更高层次用户体验的获客工具。
讲师:徐光伟(昆卡)--阿里云达摩院算法专家算法
视频地址:https://developer.aliyun.com/live/246649安全
教育搜题解决方案地址:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch架构
开放搜索(OpenSearch)是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,经过内置各行业的查询语义理解、机器学习排序算法等能力,提供充分开放的算法及引擎能力,助力开发者快速搭建更高性能、更高搜索基线效果的智能搜索服务。并发
其搜索引擎采用阿里自研的整套搜索工程体系-AIOS系统,支撑着阿里系包含淘宝、天猫、lazada、闲鱼、优酷、菜鸟、盒马等所有的搜索场景,在稳定性和工程效率上都是行业领先水平。开放搜索简介-算法优点机器学习
开放搜索(OpenSearch)在算法上集成达摩院NLP(天然语言处理)团队的核心技术,NLP Foundations 中的词法分析、句法分析、语义分析、文本分析、deep learning 技术都处于业界领先。经过对各行业智能语言处理的深刻研究,在开放搜索的行业应用中产品化落地。分布式
近几年在线教育行业飞速发展,根据2020中国移动互联网教育学习APP行业月活用户规模TOP10的统计,月活前十中针对K12教育的APP有6个,具有搜题场景的APP有5个;说明了搜题功能在教育行业的的重要性。高并发
(数据来源:QuestMobile<2020中国移动互联网年度大报告>)工具
工具型的产品能力,它是用来帮助产品得到大量的用户和流量,从而为其余的业务提供变现能力。在线教育行业中拍照搜题做为产品掠取流量最重要的工具,抓住了家长、学生辅导和解题上需求,为其余的业务变现提供源源不断的流量。正是因为这样的定位,搜题的准确性和效率变得更加剧要,将直接影响品牌的口碑和用户粘性。性能
海量题库学习
客户的题库通常都是千万甚至亿级别,并且还在快速持续的增加。同时搜题业务存在比较明显的高峰现象。在平时的晚上787到8点,尤为是周末的最后一天或者是节假日的最后一天。QPS存在很明显的高峰,具有高弹性和低延迟的云搜索,云搜索能力就成为了客户的首选。
场景丰富
搜题的场景愈来愈丰富,涵盖不一样的年级,好比低年级出现比较多的像看图识字、连线题等,这种须要图片信息的,还有包含不一样的学科,如今已有的学科已经超过10个,这些丰富的场景都会对搜索效果产生影响。
算法需求
由于搜集产品通常只会展示top 3到top5的1个结果,对于准确性的要求极高,同时还会依赖一些多模态和多元的算法能力来解决图文搜索和多元处理的需求。
案例说明:
搜题场景分词难点:
解决方法:
什么是类目预测?
简单来讲,用户输入一个query,查询获得一批商品,经过计算每个商品所属的类目与query之间的相关度,只要商品的排序公式中引用了这个相关度,那么对于这个商品来讲,它所属的类目与query的相关度越高,它的排序公式的计算结果就得到了越高的排序得分,从而这个商品就会排在越前面。
教育行业中的应用
功能介绍:该功能主要分析了查询中每个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样能够避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,致使命中结果过少。
功能用途: Query丢词、改写、文本相关性分析;
1. 基于用户行为生成训练数据
首先是基于querydock 点击行为去构建点击图,而后利用vpc 计算法获得TOM 之间的一个重要度偏训
2. 词权重模型训练
示例:
开放搜索除了已经内置的这些算法能力同时还支持用户的批量干预::词典、拼写纠错,同义词,词权重等;
示例:
系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;基础排序便是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)能够为应用自定义搜索结果排序方式 。
为何搜题要作多路召回?
教育拍照搜题场景相比网页/电商的文本搜索有显著差别:
纯文本查询方案
1. OR逻辑查询
2. AND逻辑查询
如何去兼顾计算消耗和搜索准确性那?咱们在此引入了文本向量检索
文本向量检索
目标:经过文本向量检索扩召回,结合AND逻辑查询,作到latency和计算消耗低于OR逻辑的状况下准确性更高;
向量召回采用目前最早进的BERT模型,其中针对教育搜题作的特别优化有:
这个图咱们能够看到有一项召回,在召回率上已经达到凹逻辑。同时在准确性上如今超出2逻辑3到5个点,总体的召回到数减小40倍的状况下,latency 能够下降10倍以上。
效果:
多路召回优点:
文本召回和语义向量召回的结合在搜题场景已经验证有效,开放搜索的多路召回架构还将有更多的使用空间:图片向量召回、公式召回、个性化召回。
除了开放搜索内置的向量模型,咱们也将支持客户本身的向量索引,欢迎客户和咱们一块儿深耕搜题算法优化。
案例1:搜题query:"张慧研所指与小磁大概相近的是乐府之音
案例2:搜题Query: “如图是由一些相同的小正方体搭成的几何体从三个不一样方向看获得的形状图,则搭成这样的几何体须要\_\_个小正方体
一、某K12教育客户: 某在线教育平台,主打K12教育,用户数千万级别,题库量8千万左右且持续增长,由自建题库和第三方题库两部分组成,以前经过OCR+自建ES搜索服务实现拍照搜索功能,面临的主要问题是搜索准确率待优化提高,下降搜索延迟等问题。
客户反馈:
二、某高职教育客户:某聚焦在大学生搜题领域的在线教育公司,产品DAU300W,月活1000W,业务高峰期日均搜题PV过亿。
客户反馈:
若是您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流
【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用
https://free.aliyun.com/product/opensearch-free-trial
本文内容由阿里云实名注册用户自发贡献,版权归原做者全部,阿里云开发者社区不拥有其著做权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。若是您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将马上删除涉嫌侵权内容。