大数据用户画像方法与实践(干货 转帖)

在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤为重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一块儿来寻找答案吧~算法

首先看一下大数据与应用画像的关系,如今大数据是煊赫一时,相信你们对大数据的四个V都很是了解,大数据应该说是 信息技术的天然延伸,意味着无所不在的数据。网络

咱们先看下数据地位发生转变的历史,在传统的IT时代,TI系统围绕业务服务,在这个服务的过程当中沉淀了不少数据,再在数据的基础上作一些分析。可是到了DT时代不同了,数据是现实世界的虚拟化表现,数据自己构成了一个虚拟世界,IT系统构建在虚拟系统上,变得更加智能。架构

1机器学习

大数据无处不在体如今几个方面学习

第一个就是说咱们社会信息化的建设愈来愈发达。大数据

第二个是随着可穿戴设备的发展,人产生了愈来愈多的数据,接入网络当中,同时人和人之间沟通的方式也不只仅是传统的面对面,传统理解人、与人沟通的方式发生了根本的变革,所以咱们要学会从比特流中去认识人类,所以构建用户画像这件事就变得更加剧要。优化

并且如今机器也变得很智能了,因此咱们还要教会机器来认识人类,这样才能在画像的基础上构建应用,譬如个性化推荐、精准广告、金融征信等等。以前我一直是在从事这方面的应用开发,所以知道用户画像对于这些应用的重要性。网站

若是你们是来自互联网公司的话,咱们常常会提到这些词:用户画像、标签、360度用户视图等等,有很多人甚至就是作这面的研发工做,可是这些概念让你感受有一点似是而非,我之前也有这样的感受,就是说没有从根本上把这些概念弄清楚,所以有必要把这些概念从根本上弄清楚。设计

2blog

首先看一下咱们生活中的用户画像

举个例子,”身长八尺、面如冠玉、头戴纶巾”,你们会想到一我的是谁?诸葛亮是吧,这是一段文本上的描述。你们再看一下,下面这张图你们又会想到谁,希特勒。再看一下右边这幅图,这是一个球员。这个就不用说了,是美国的奥巴马。这些都是生活中的画像,都是为了描述一我的,可是它们的描述方式和角度不同的。

可是从咱们这些描述当中能够看出一些共性,主要体如今以下几个方面:

第一个是目标,目标都是为了描述人、理解人,这是用户画像最大的目标。

第二个是咱们描述的方式,能够分为两种:第一种是非形式化的手段,咱们前面看到的语音、文本,都是非形式化的,另一种是形式化的手段,譬如刚才咱们看到的奥巴马身份证,你能够把身份证放在读卡器上,就能够把对应的信息读取出来。

第三个就是结构化和非结构化的组织方式,咱们前面看到的球员数据它就是结构化的。

第四个就是用户画像标准,这个很重要,这是咱们一会要讲的,为何?好比说,咱们在描述用户的过程中要有一些共识,举个例子,我说某我的特别二次元,这个词对方就可能听不懂,是由于双方对二次元这个词没有达成共识,因此必须有一套达成共识的的知识体系,否则用户画像这件事是没有办法达到的。

最后一个是验证,就是说咱们作完用户画像之后,必定要去验证。举个例子,我跟你说某我的特别不靠谱,至关于打上了一个标签,你必定会反问我为何不靠谱,你的依据是什么,就是咱们给用户生成画像以后,咱们必定要给出依据和推理的过程,告诉你这个结论是怎么获得的,否则就没有可信力。

3

那么到底什么是用户画像呢?

用户画像是对现实世界中用户的数学建模,它包括两方面:

一方面是描述用户,没有说人,是说明它跟业务密切相关,它是从业务中抽象出来的,所以来源于现实,高于现实。

第二个是用户画像它是一种模型,是经过分析挖掘用户尽量多的数据信息获得的,它是从数据中来,但对数据作过了抽象,比数据要高,后面全部用户画像的内容都是基于这个展开的。好比刚刚说的月光族,这个确定是挖掘分析出来的,不是说原来的数据中包含月光族这个标签,因此说这是它的两层含义。

而后就是刚刚说的,用户画像是现实生活中的数学建模,可是咱们如何描述这样一个模型,核心是要有一套标准的知识体系,描述用户画像。

另一个方面,就是要有一套数据化、符号化、形式化的方式去描述这套知识体系,什么叫形式化?就是机器要可以理解这套知识体系,若是只有人理解的话,这个东西是没有办法使用的,所谓形式化就是这个含义。

这种方法到底存在不存在,60、70年代就已经存在了,作语义分析的朋友可能听过这个本体论,在90年代的时候,本体和语义网络很是流行,这个东西是比较复杂的,它帮助机器去理解知识体系,因为很是复杂,我就简单说一下,相似于UML这种语言,包括实体、联系、推理等等。就是说经过这套方法论,能够理解知识,甚至教会它怎么去推理,这就是前面说的本体论。这个方法是很复杂的,很是麻烦。

咱们这里有一套很是朴素的方法,你们能够看一下这张图,咱们在现实世界中怎么表述知识。

咱们最开始学习语文的时候用的是什么,是新华字典是否是,字典中你们看到的组织形式是什么,首先是词,词做为它的表现符号。

另外是什么,它后面会跟着比较长的解释文本,就对应一个概念,那么就是说,这里符号与概念是相对应的。

用咱们现实生活中的一个例子来讲,你好比说拿狗这个例子来讲,狗这个词是一个符号,可是对应咱们脑子中的概念是什么,”四条腿,一个能看家的、一个能汪汪叫的 动物”,对不对?对应的实体就是咱们现实生活中看的各类品类的狗,是吗?我但愿你们能够记住这张图。

上面这张图中的模型就对应前面图中所指的概念,标签就对应前面这张图上的符号,在这张图当中,标签是一个符号要去表达模型对不对。举一个简单的例子,好比说我这个产品,想卖给”收入高、坐办公室” 这个群体,白领能够表示这样一个用户群,白领这个词就是一个一个符号,一个标签。

另外要强调的是标签它是跟业务密切相关的,好比说就拿最简单的标签男女来讲,在阿里内部,关于男女,这样最简单的标签,也有12个男和女,它与业务密切相关,不只仅是指生理上的男和女,另外还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等,在这个层面来说,对男女的标签又有了一层新的理解。

这个符号是跟业务场景绑定在一块儿的,脱离这个业务场景,这个符号就没有明确的含义。

刚刚说到了用户画像的定义、标签的定义,那么咱们平时常常说的用户画像和标签,它们之间是一个什么样的关系呢?

实际上是一个总体和局部的关系,用户画像是总体,标签是局部,总体和局部的关系经过“标签体系”体现。总体和局部总包含两方面的关系:化整为零:总体如何反映在局部;化零为整:局部如何组成总体。举例来讲:“人有一双眼睛一个鼻子”,那:化整为零:对每一个人都应该观察到一双眼睛和一个鼻子;化零为整:只有位置合适的一双眼睛和一个鼻子咱们才认为他是一我的。

这里还有标签体系,要重点说的是,咱们在给实际企业客户构建用户画像的过程当中,须要和他们的业务部门、产品部门去构建标签体系,由于标签是和业务密切相关的,他们的标签体系是要搜集全部业务方的需求,制定出来标签体系之后,给出每个标签标准的定义,而后才是进行标签的开发。

4

用户画像的验证

最后说的是用户画像的验证,就是说咱们在给客户提供方案的时候,他们常常会问的一个问题,构建的用户画像结果怎么去验证?在咱们看来,用户画像做为用户在现实中的数学建模,对模型的验证能够分红两个方面,一个是准确率的验证,你的标签打得准不许,就是咱们常常说的准确率。第二个是标签打得全不全。可是对于这两个方面来讲,你是没有办法同时知足的。现实业务中没法追求彻底,由于你不可能作出一个100%完备的标签体系。

所以咱们验证更多谈的是准确性,能够分为两种,一种是有事实标准的,譬如生理性别,能够用标准的数据集验证模型的准确性,另一种是无事实标准的,譬如用户的忠诚度,咱们只能验证过程,具体的效果须要经过线上业务A/B Test进行验证。

前面介绍了用户画像的理论:用户画像是对现实用户的数学建模,标签是一个符号,标签与业务关联在一块儿才有意义,用户画像和标签是总体和局部的关系。接下来介绍用户画像的实践。

5

用户画像实践

上面这张图是用户画像生产和应用的逻辑架构,包括5层:

数据采集层收集用户的各类数据,就拿一个公司来讲,它的数据源分布在各地,有CRM系统的,有分散在各个部门的,构建DMP的一个难点就是要把各处数据都搜集起来,甚至须要老板去推进。

数据管理层对这些数据进行清洗、拉通、整合以及分析建模,构建用户画像。

数据接口层和应用层基于用户画像,提供各类分析、服务类以及营销类的应用,服务于金融、制造、航空等各个行业的用户。

要精准构建用户画像,面临着许多技术难题,接下来重点介绍用户多渠道信息打通、多渠道的产品打通以及用户数据挖掘建模,这三个方面接下来会一一展开讲。

首先介绍用户多渠道信息打通,用户与企业的触点很是多,譬如手机、邮箱、Cookie等等。咱们要将同一个用户的这些多个触点进行打通,须要站在上帝的视角。咱们能够把用户ID视为图中的顶点,若是用户的两个触点在同一个场景出现,譬如用邮箱登录,那么咱们会在用户的邮箱和Cookie用一条边进行链接,从而构建一张图。

图中连通的ID能够视为同一个用户,从而实现用户拉通,拉通能够基于图的方法进行强拉通,也能够采用机器学习的方法进行模糊拉通,预测出拉通的几率。

另外,拉通的可信程度由业务的密度决定,密度越高,对可信度的要求越高,譬如推荐是低密度业务,即便识别错误,影响比较小,但对于 电商的 短信通知服务,若是识别错误,体验就会很是差。

刚刚讲到的是用户打通,接下来要讲的是如何将不一样渠道的产品拉通,譬如咱们的电商客户第一方的标签体系都是有差异的,所谓标签体系拉通就是创建一套标准的分类标签体系,通常都是一颗分类树,任何一个商品都能划分到这个分类树的叶子节点。根据咱们的实践经验,手工映射的方法成本高、难以大规模开展,咱们实际是采用机器学习模型+少许的人工规则来实现的。

具体的模型实现见上面这张图,要实现自动分类,其中的难点不在于模型,而在于得到训练数据、feature engineering以及分类树层级节点之间的依赖问题,在这里我就不具体展开了,目前对于咱们电商渠道的商品,分类准确率在95%以上。

在用户画像建模方面,咱们把标签建模分为四层:

第一层是事实类标签,譬如用户购物了什么品类;

第二层是机器学习模型的预测标签,譬如当下需求、潜在需求等等;

第三层是营销模型类标签,譬如用户价值、活跃度和忠诚度等等;

第四层是业务类的标签,譬如高奢人群、有房一族等等,它是由底层的标签组合生成的,一般由业务人员定义。

用户画像的应用前面介绍了用户画像的理论和实践,接下来介绍基于用户画像的应用。

用户画像的具体应用包括售前的精准营销、售中的个性化推荐以及售后的增值服务等等,后面会进行展开。

用户画像的标签维度和应用是相互相承的关系,一方面能够根据现有的标签维度开发应用,另外一方面能够根据应用的需求扩展标签的维度,二者互相促进。

咱们在这里举的例子分为三类。

第一类是售前的精准营销,譬如电商客户和企业客户,须要通过精准营销,把站外的用户吸引到你的网站上面来。

第二,售中的个性化推荐是说,你把这些用户吸引过来了之后,如何经过个性化推荐的方式可以更好地提高站内转化的效果。

第三个是售后的增值服务,就是你把这个产品卖出去以后,不是这样就结束了,而仅仅只是你跟用户接触的开始,可能涉及到用户后续的产品咨询或者吐槽等等,也就是会涉及到售后增值服务方面的问题等等,这三个应用都跟用户画像密切相关。

首先是根据用户画像进行精准营销,这块你们对门户广告、百度的搜索广告或者如今的一些dsp公司投放的程序化广告比较熟悉,百分点要作的事情是帮助企业整合以及拉通它们本身的第一方数据,创建企业创建用户画像,实现全渠道营销。

这是咱们为某知名制造企业客户作的一个大数据项目,目标就是拉通和创建消费者统一的用户数据平台,创建消费者用户画像,并基于用户画像实现精准营销。上面这张图是为该企业构建的用户画像体系,具体的维度包括基本信息、产品信息、财务信息、风险信息和资产信息等等。

并且结合百分点的营销管家产品,能够实现触发式的营销,譬如用户在某网站下单购买一款手机,即可以立马给他推送该品牌手机对应的手机配件广告。最终的效果是,经过用户拉通与用户画像,对59万潜在消费者造成4个精准人群进行投放,是盲投点击率的10倍。

再举社会化营销的一个例子,咱们的某个家电制造企业客户,新品发布时指望经过短信和邮件方式,从老用户中找出最有可能参加活动的粉丝。咱们利用企业的CRM、客服、销售等数据,对用户忠诚度进行综合评定并挑选忠诚度最高的用户做为招募目标,带来了超过一半的粉丝,但成本只有以往的40%。

前面讲的售前的精准营销,接下来是售中的个性化推荐,这是百分点最开始创立时作的事情,目前已经服务超过1500家的电商和媒体客户,是国内最大的第三方推荐服务提供商,百分点推荐一个很大的优点是利用全网用户画像进行推荐。譬如对于王府井商城的一个新用户,在首页进行推荐时,由于对它的历史没有了解,只能推荐一些热门商品。但对于百分点来讲,咱们知道该用户在其它客户网站上的行为,譬如它对化妆品很感兴趣,就能够推荐相关的化妆品,利用全网用户画像解决了王府井推荐的冷启动问题。

这是百分点推荐引擎的设计架构,核心是四大组件,包括场景引擎、规则引擎、算法引擎和展现引擎,尤为是规则引擎很是强大,能够根据客户的业务需求可视化配置推荐逻辑,譬如推新品、清库存等等,而不只仅是点击率最优。因为时间关系我在这里再也不详细介绍了。

咱们这里举一个推荐的实际应用例子,咱们的某个团购网站客户,下网采用咱们的推荐引擎解决它下单率的问题,咱们经过分析发现该网站用户的一系列特征,譬如忠诚度低、区域性购买等等。

咱们采用了一系列的优化措施,譬如根据用户画像中品类偏好、商圈偏好、消费能力等标签优化召回,使得该团购网站的点击率平均提高18.23%,直接下单提高86.95%,取得了很是理想的效果。

最后一个例子是如何结合用户画像提供“售后”增值服务,上面这张图是咱们给客户的一个应用系统方案,能够经过数据接口实时反馈用户相关信息,譬如历史维修、历史咨询等等,以及进行知识推荐,支撑服务效率和客户满意度;同时收集用户的服务满意度数据,补充和完善用户画像信息。

6

小结

最后再对前面讲的内容进行一个小结,在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤为重要,是上层各类应用的基础。

构建用户画像的核心是进行标签建模,标签不只仅是个符号,而是和业务紧密关联,是业务和技术很是好的结合点。

最后再结合咱们本身的实践经验,给出了画像在精准营销、个性化推荐以及售后服务的3个例子,说明了用户画像在实际业务中的重要价值。

相关文章
相关标签/搜索