本文来自腾讯云技术沙龙,本次沙龙主题为在线教育个性化教学技术实践 算法
演讲嘉宾:谭安林,腾讯高级工程师。2015年加入腾讯,8年互联网从业经历,从事大数据平台与产品开发相关工做;前后参与广告、金融等领域产品项目,目前负责行为预测解决方案,帮助客户盘活现有客群、挖掘潜在高价值新客。目前咱们的产品包括:智能客服、大数据套件、腾讯移动分析、腾讯移动推送等。
今天我分享的是在腾讯云在大数据对用户行为预测这个项目中,有关教育行业的一些实践,但愿能够给你们带来一些帮助。这一年咱们所作的是用户行为预测解决方案,针对教育行业定制一些行为分析和预测,但愿能够帮助你们更好地借助于数据。大数据对外开放有两个模式。第一个模式是平台技术,咱们会将大数据的能力开放到云端给你们使用,好比腾讯大数据框架。第二个模式,咱们考虑到对内数据服务的能力模型,复制对外,为你们提供一些有针对性的行业服务。数据库
中国的网友有8亿之多,98%的用户群使用移动互联网。2017年始,月活的移动设备数量稳定在12亿左右,新增红利在渐渐消失。深挖存量的大盘用户价值,有两方面的考虑:一方面,咱们但愿给整个大盘的存量用户提供更有针对性的个性化服务、产品和推荐;同时针对各个行业,挖掘出大盘用户的价值,为行业带来数据上的增加。后端
咱们之前作过智能推荐,在金融领域进行用户逾期行为预测的开放,在相关的反欺诈、风控场景中进行使用。在教育行业,随着技术的发展以及产品的日渐丰富,整个教育行业的用户增加是很可观的。在将来几年,教育行业会持续发力,咱们也但愿能够在这方面作一些事情。安全
用户行为预测帮你们解决的问题有哪些?从运营的角度考虑,获取潜在客户的环节,能够帮你们了解谁是你的用户,哪一个平台适合作精准化营销。获取用户以后,咱们会分析哪一个用户价值比较高,更容易付费转化。咱们能够作这样的识别,哪些用户在必定的生命周期后会流失,咱们要作出流失预警以提早干预,而不是等到流失后再干预,这时候已经来不及了。微信
咱们的产品运营会贯穿数据化的工做,从用户引流开始,到判断用户来源渠道是好仍是坏、用户的价值是高仍是低、提高转化效果等。这就说明产品要作大,必然须要一些潜在的客户,将当前用户的盘子进一步扩大。其中涉及到的数据分析服务,主要能够分为三个方向:架构
如今市场上的移动分析,也须要相应的工具。例如上面提到的三个方向,咱们要作数据化的运营,首先要明白运营指标、目的是什么,从而把这个指标转换成数据的指标。好比天天的转化率,咱们会推进终端作数据的采集、APP的打点,将数据分析和数据开发经过相应的报表进行呈现。整个过程当中,无论是咱们自研仍是用外界的工具,好比云盟和腾讯分析等,咱们均可以直观地看到一个产品运营的状况。可是要作深刻挖掘,判断哪个用户有价值,这确定是不够的。咱们还要进行标签的建设、模型的建设,判断应该构建哪些标签、哪些模型。最终构建的标签和模型都须要落地去作数据产品,作到可视化,使咱们的运营、产品所见即所得,找到一个比较好的运营方向。框架
在整个实施过程当中,咱们也了解到,不管是教育行业、金融行业或其余电商行业都面临一样的问题。数据在终端收集以后,咱们要落地到标签系统,生成标签。这个环节会很是困难,首先咱们要联动不少岗位的同窗,从产品到终端开发、后端开发,以及数据分析、算法等等。你们的KPI是不一致的,运营同窗主要是作数据增加,后台、终端同窗更多倾向于作出新功能和并维护旧功能的稳定性。这样的数据需求提给他们,你说要打一个点,颇有可能很小的事情会作到一个月甚至是半年之后。这里存在一个应用难的问题。工具
同时还有一个问题,对于新用户或APP已经留存的用户,基于咱们数据采集的方式获取到的数据很是少。少到什么程度?可能只有几条。这些行为的数据是付费转化的数据,但你也不知道还须要哪些其余的数据。这时数据不多,很难刻画一个用户是否是高价值,是否是容易被转化。即便构建了标签系统,还须要另外一批人去建模,须要四五我的或十几我的作模型分析。选择哪一个模型,判断哪些特征有效,模型构建完成之后还要去运营、落地、实验,这时候还须要进行实验的工具,整个过程是很复杂的。学习
用户行为预测项目的出发点在于标签建设和模型建设这两部分。化繁为简地说,咱们但愿作到的是咱们来提供API,你们来上传行为数据,咱们再进行落地的简化。你们不须要作标签建设和模型建设,咱们能够直接预测用户的付费评分、转化评分,以及一周内是否会流失的预警。在简化落地这部分,若是你们联动开发、算法、分析一块儿作这个数据产品,须要20我的甚至更多。但在使用这个产品以后,只须要两我的去作这件事。一我的开发API,接入数据;另一我的使用这个系统作运营。同时,咱们也提供小步实验的工具。测试
下面我来介绍一下腾讯云对于用户的刻画,主要分为五个方面,包括人口属性、社会属性、用户消费、用户行为、兴趣偏好。你们在报考驾照时可能关注点不太同样,有些人但愿周期较短,有些人但愿便宜一点,有些人但愿教练不要骂人。咱们能够经过标签,刻画不一样用户的分群,针对这些分群作一些定制化的营销。特别是针对教育行业,咱们能够把一个群体分为七天内流失可能性是高危、通常仍是低流失的不一样分群,进行一些有针对性的运营策略。接入的方式是围绕用户行为进行接入,获取用户接入第一方的数据后提供模型,或从行为中抽取样本再进行建模。在这个过程当中,系统会提供一键预测的功能,客户直接在系统上进行操做便可。预测出的结果能够截取下来进行本身的运营实验,咱们最后也会根据用户行为进行跟踪。在市场上有一些行为跟踪的产品,它们要求的是效果反馈,须要有一些KPI。咱们根据纯粹上报的KPI作变化跟踪,直观地看出哪一个策略好、哪一个策略差。
刚刚提到三个方面的服务,第一方面是对留存用户,第二方面是对新增用户,第三方面是帮助你们挖掘潜在用户。先来看一下留存用户,也就是如今已有的用户,这种场景比较好的地方就是第一方数据相对较多,咱们的模型会比新增用户的模型更好。主要分为如下四个部分,一是数据管理,数据管理不只是第一方数据,也包括互联网大盘的脱敏数据,咱们会有针对性地进行融合。第一方的数据是注册信息、设备信息、行为信息,好比用户登陆的时间、浏览的页面。这些信息接入进来后,咱们会进行概览性的分析,好比天天的PV、UV分别是多少。同时咱们也会对每一条数据进行质量评估,由于每个字段的完善度都会影响模型的效果,若是完善的话,模型将在0.8以上;若是不完善则会在0.7到0.8;若是特别差的话,模型就不能被使用。
第二是留存预测。咱们能够提取一段时间内的用户包进行预测,预测模型能够是多种,根据多种需求能够自定义、也能够进行增长,当前的预测主要是流失、付费、逾期还款等。在预测出来后会出现一个几率的分值,能够根据几率分值将它自定义分红几个分组,也就是分群。例如在付费的模型中,付费转化率高的人,咱们称为高付费,次之是较高付费。咱们能够在这个基础上再进行分群的洞察,在这个分群洞察市场上有不少移动分析的软件,可是它们提供的画像颇有多是通用型的,甚至对于某个群体是没有显示度,也就是没有显著性的。咱们针对不一样的行业,特别是教育行业,有着本身的行业定制标签,好比教育关注度、教育坚持度这样一些画像,可以有效地展现其中的群体形态。若是你发现这部分人群有怎样的画像特色,在以后进行广告投放时能够咨询一下广告投放平台,支不支持这些标签的投放。若是能够的话,就能够实现精准投放。
再来介绍一下咱们分群所用的标签。我展现出来的是两个画像,一个是教育关注度,一个是教育坚持度。首先介绍一下图表,图表上207这个数字,表示的是TGI的相对显著性,数字越高表示这个特征和它所对应的分子越大,也就是正相关性越高。这个数字大于100表示正相关,小于100就是负相关,数字越小就表示负相关越大。教育关注度越高的这些人付费意愿就会更强。教育关注度就是根据客户在大盘教育类的咨询,以及周边产品的关注程度聚合出来的画像。
再来看教育坚持度,它的表现也是同样的,越能坚持的人,越愿意付费。在这里教育坚持度咱们怎么刻画的呢?他持续使用大盘里某类或所有的教育产品,这种持续的时间投入,咱们称之为教育的坚持度,这是由不少特征聚合出来的画像。
刚刚看到的是行业的标签,咱们构建的标签分红了通用标签、行业标签、场景标签以及个性化标签。这里是通用标签,通用标签就是游戏的沉迷度,好比说在游戏上消耗的时间和周期,能够根据这些行为进行刻画。咱们发现它的显著性和教育关注度不同,越沉迷游戏的人,付费的可能性就越低。在自我驱动力上面,他会本身驱动本身作一些相关的学习、收藏,属于比较有自发性行为的数据。这种数据能够刻画出越上进的人,越可能会付费。
这是一个实验项目的跟踪展现,上面是测试数据,不是真实的数据。咱们的实验包括两种实验,一是人群对比,将较高付费的人群及高付费人群作同一个策略实验。咱们能够打电话营销、发短信营销,甚至能够建群为他们进行针对性的服务。在这些方式下,能够得出哪一种人群转化率更高,哪一种策略更适合哪一个人群。第二是策略对比,针对较高付费的群体,咱们进行刚刚三个策略实验,就能够看出哪一个策略对这部分人的效果更好,在具体的运营实验上花更少的成本,去体验整个实验的效果。
第二个方向是新增用户。新增用户为何放在留存用户后面讲呢?由于这部分能够得到的数据更少。咱们能够获取到留存用户的一些行为数据,但新增用户可能只有手机号、设备环境信息和相应的价值信息。咱们能够作到的是新增预测,提供单独的API服务。它的应用场景主要是有两个点,一是渠道质量的预估,为何是预估呢?咱们在运营中会面临一个问题,投放广告、投放营销预算应该选择哪一个渠道?评估一个渠道的好与坏有两种方式,一是咨询别人,这种方式并不可靠。第二是进行实验,在一周、两周、一个月以后,观察这个渠道的付费转化率是多少、流失状况是多少。咱们对模型进行了预测,这时就能够把渠道的质量预估提早,若是预测出某个渠道的质量很是差、转化效果也不好,这时就能够把营销预算往好的渠道上面倾斜,在后期彻底能够进行对比。
还有一种状况,咱们在投放广告的时候,由于广告的素材误差引进来的人不是目标用户,致使营销预测浪费。假设咱们在三个渠道都投放了营销素材,三个渠道质量的预估从原来都很高的预估率同时下降了,这就有理由怀疑是素材的问题,能够进行素材上的调整。同时还能够进行新增的预测,根据它的阀值进行自定义的实验。咱们的跟踪数据会反馈到模型训练中作一个迭代的优化。
潜客挖掘这部分是不少人都关心的。一开始咱们并无想作这部分,之前一直在作广告,经过广告挖掘新增客户。不管是教育行业仍是金融行业,都有这种需求。为了获取更多的客户,有多是口口相传,有可能要投一些预算作广告。潜客预算有两种模式,第一种是从其余渠道拿到你认为有潜在价值的用户包,第二种是在互联网大盘里作一个预测,哪些人可能会是潜在用户,而第二种方式只会在腾讯云内部的广告投放平台上进行流通。咱们把挖掘潜客分红两类模型,一种是和留存新增相似的分类模型,一种是Lookalike。若是咱们以到站这种方式做为目标,其实你不知道谁没到站,你只知道到站的是谁,这里是没有负样本的,因此咱们须要用Lookalike的方式。咱们对潜客的跟踪有相应的解决方案,能够跟踪到潜客包转化效果,从而进行进一步的运营尝试。
下面为你们介绍一下Lookalike,Lookalike是将其转化为一个二分类。以到站的方式为例,到站的人咱们认为他是种子用户,但咱们不知道没有到站的人是谁,只能在大盘里将到站的用户剔除掉,其余的做为一个盘,其中随机抽出一部分做为复例。最后进行模型训练时,提取的就是咱们潜在的用户包。这里面临的问题是什么呢?负样本中颇有可能包含正样本即某些其实是潜在用户的人,随机性抽样很难保证准确性。这里咱们也经过标签抽取的方式进行实验,好比先对种子用户进行画像分析,发现他的教育程度高、教育关注度高、坚持度高,这类人就是潜在客户。相反,关注度低、坚持度低的人,是否是必定就是负样本呢?这种方式可能会致使整个模型泛化效果比较差。实际上,咱们是将种子用户抽取出来一部分,放到负样本混合后进行建模,在建模后就能够看到负样本中混合的种子用户的几率分布。
假如咱们发现它的几率分布在0.42以上,咱们就有理由相信0.42%如下是比较高质量的负样本,再将正负样本拿进去作第二次真实的训练。训练的过程当中可能会遇到一些问题,咱们在教育行业用了800多维的维度,总体的维度有三四千。这里面临特征拼接的问题,无论是留存、新增仍是潜客,或者是付费、流失场景包的模型,每个模型所须要的特征是不同的,它们都是动态的、个性化的。这里须要有一个特征拼接的过程,咱们采用列存储+SSD进行支持。
你们接触的数据量比较少,当前几千万也是比较常见的。在整个大盘预测上,基础是几十例。咱们作一个排序,也能够作一些抽样的预测。好比抽取5000个用户包,先预测一下这5000个用户的大概P值,好比说预测出的P值是0.85,在实际预测时就进行阀值的提取,增强整个链路的优化。Lookalike的结果会直接与内部广告平台打通,并在广告投放后从行为变化跟踪上观察投放的效果。
在总体的方向上,咱们的预测从数据采集到特征构建、模型集成,最后提供在线化的服务。在数据采集这部分,咱们会根据采集到的持续数据构建时序的特征,同时也会将其用到模型中去。
这是一个总体技术架构介绍。由于这是一个数据产品,不像咱们常规理解的一个显然的系统,它是各个环节进行协做,最后进行数据产品的输出。首先咱们在作外部数据接入时,经过腾讯统一的网关STGW将数据放进来,以后经过DFS数据通道存放到消息队列中。行为数据基于第一方数据的安全,进行了相应的加密和脱敏,咱们要进行解密并对每一条数据进行质量的评分。这里有一些质量评分的报警,若是数据能够达到80分,如今一会儿变成了60分,咱们就须要和客户沟通,是否是某个环节出了问题,由于它最终会致使模型效果较差,使用的体验也会比较差。后面咱们会将接入进来的数据存放在TDW,各家的数据进行分表存储,没有融合在一块儿。以后再将数据取出来进行计算,进行数据行为概览相应的指标分析以及行为跟踪。某一个用户包的行为变化跟踪,就是在这里面进行的。
最后咱们将这些统计结果、跟踪阶级写入MySql,经过产品系统提供给用户进行展示。这里为你们介绍一下咱们模型的作法。样原本自两个部分,一是行为数据抽取出来,二是经过用户接口提供或离线提供。咱们要融入大盘的特征,大盘特征是分级的,有些特征是按月的、有些是按周的、有些是按天的、有些是实时的。咱们有不少节点计算每一个不一样的特征,固然有些特征会放在一块儿进行计算,将这些特征放到Hbase中以加快它的访问。
在具体应用时,客户提取用户包后进行模型的预测、分群的洞察。咱们提取了用户包,在预测的时候要先去提取存在Hbase里面的实时数据,观察它的实时特征。实时特征和离线特征融合起来进行模型的预测训练,在预测完成后,咱们要将一些特征聚合起来造成画像,最终在页面上展现给你们。这些也是经过关系型数据库进行产品的展示支持。
关于咱们产品的结构,首先是第一方的数据源。第一方的数据是客户提供的行为数据,加上内部画像融合起来进行数据建模的支持。针对用户上报的数据,咱们会自动生成标签。内部数据也会经过相应的标签工具,生成通用的行业、个性化、场景的标签,以后再进行数据建模以及每一个用户的落地,服务落地分为用户分群、小步实验、效果闭环。再往下是各个行业的应用,好比教育行业以及金融上面的反欺诈实践。
第一方的数据完善程度和模型效果有相关性。若是第一方数据比较完善,能够达到0.8到0.9的AUC,它的识别能力很是少。若是数据不太完善,只有50%或者60%的完善程度,AUC会在0.7到0.8之间。若是数据在百分之二三十,甚至没有第一方数据,那么AUC就在0.7左右。
下图是教育类预测线上特征库,咱们将其分为四类。每类从上往下是通用、行业、个性化、产品化这四类特征。整个大盘的特征维度有几千维,教育行业咱们用到了800多维。
在第一方数据和安全机制部分,第一方数据,就是某一方面的数据,它对某一方面的模型有直接的影响。在作付费模型的时候,基础数据APP行为、付费转化有着直接相关性;在作流失模型的时候,基础数据和设备相关的信息、APP行为的信息有直接相关性。第一方数据是客户提供给咱们的,不管是金融、电商仍是教育,你们都会面临同一个问题,提供数据会不会存在隐患,咱们会不会再将这些数据提供给别人。在安全方面咱们分为三个等级,一是数据传输上进行加密的支持,即便传输的连接请求被劫持了,其余人也不知道这个数据究竟是什么数据,他只能看到一个密文。二是数据存储。在存储用户数据的时候,按照分表物理存储,其中不会有融合的问题,也不会将这些数据给另一个产品使用。三是数据的脱敏。咱们针对帐号支持加密,在内容上能够简单地理解为,假如用户A看了张老师的数学教程,在这个看的过程当中,咱们会将张老师的信息由客户本身定义一个惟一的编号,将这个数学课程也定义成惟一的编号。在这些数据上传以后,咱们拿到的只是编号,而不是张老师、数学这样的具体信息。取得这个数据后就能够进行模型上的建设,这里咱们会将具体的用户隐私数据过滤掉。
咱们的接入方式比较简单,但也会存在必定的开发量。首先客户将行为的数据经过API提供给咱们,这里的样本有两种方式。若是行为数据比较全,咱们能够直接进行操做。若是行为数据不太全,或不太符合预期,咱们会让客户提供一个样本。数据建模由咱们进行支持和处理,客户能够在产品系统上提取用户包进行预测、实验和效果的跟踪。
Q:刚才提到的教育坚持度,若是与某个变量因子相反关系,说明这我的的基础比较薄弱,是吗?
A:这不必定,咱们也作过这方面的分析。咱们发现有些人学历很高,他们仍是坚持去学习,这彻底是因人而异的。因此这部分也要看学历,学历也是一个因子,但学历的因子反而没有这个指标显著。
Q:关于特征的部分,请问能够公开一些特征吗?
A:若是合做到必定深度是能够的,可是如今不方便透露。咱们的特征也不少也比较细,像通用特征能够通用到各个行业,没有行业的属性在里面。
获取更多详细资料,请戳如下连接:
大数据在教育行业的研究与应用-谭安林.pdf
问答
大数据对人工智能深度学习有何影响?
相关阅读
王永庆:技术创新改变教育将来
郭卓惺:互动课堂的搭建实例及相关领域应用
杨婷:腾讯云在线教育解决方案分享
此文已由做者受权腾讯云+社区发布,原文连接:https://cloud.tencent.com/dev...
欢迎你们前往腾讯云+社区或关注云加社区微信公众号(QcloudCommunity),第一时间获取更多海量技术实践干货哦~