教你如何最快入门用户画像

    你们可能常常会听到用户画像这个词,可是具体在作的时候又会以为无从下手,或者认为只是常规的标签统计,这每每是一个误区。本人在某互联网企业从事了将近一年半的用户画像开发。从一个刚刚接触用户画像的小菜鸟,到如今逐渐成长为画像开发的主力程序员,中间有许多的感觉与经验想总结下来,分享给你们,你们也能够讨论讨论。前端

用户画像的应用程序员

    用户画像是目前数据挖掘当中比较容易入门的一个领域。它比较热门的应用即是推荐,最近常说的千人千面的核心基础即是构建人群的画像,经过人群的不一样画像来作到个性化推荐。另外广告也是很是须要用户画像的支持,经过个性化的广告推送,也能够提升广告的点击率,带来更高的广告收入。其次用户画像不少时候都是能够作为销售的线索打包出售给特定的公司和合做伙伴来直接获取利润或者交换数据。redis

    若是咱们将一个用户各方面的画像整合起来使用,它的身份,性别,教育程度,学历信息,收入大体范围,购买力,经常使用位置等等标签一目了然,一我的的总体形象就跃然纸上。你有时候会以为随着用户画像的技术的完善,用户的隐私会愈来愈少。我目前供职的还仅仅只是一家中型互联网公司,用户量也并不是不少,对用户的各类画像挖掘就已经到了一个令我震惊的程度,阿里腾讯等大公司的用户画像只会作的更加完善。算法

用户画像初相识sql

    刚开始接触用户画像并不是是个人意愿,因此对用户画像彻底不了解就开始上手了。当时对用户画像仅有的直观影响就是给用户打标签,好比一我的是男的仍是女的,有车仍是没车,喜欢看什么文章之类的。若是作过机器学习项目的话,会发现这个就是咱们平时本身提取的特征。事实上刚开始作的话,成天即是写sql,从数据仓库以及各类数据来源提取数据,按照必定的处理逻辑来规整数据,最后处理的数据以HIVE 表的形式存到 HDFS,Hbase,Redis。不一样的是,咱们在某个项目提取的特征只会用于这个项目,通常不会用于其余的地方。可是用户画像的一个基本要求画像必须是能够通用的。就须要有一系列的规范来保证每一个字段必须是可解释的,HIVE 表的命名是有意义,数据的输出是规范一致的。一切的一切都应该是有文档来记录以保证画像的通用性。数据库

用户画像的基本前提cookie

    用户画像最重要的其实就是用户了,有人说这个就是废话。其实不是的,咱们作用户画像须要获取这个用户在咱们公司网站 pc端,app,m端(在手机端登陆公司的网站)全部的数据。只有获取了这个用户在咱们公司全部的数据,咱们才能获取这个用户在咱们公司最完整的画像,不然这个用户的画像就是有失偏颇的,不会那么准。这个问题彻底能够经过非技术的手段来解决,好比用一个标志来标识用户在 pc端,app,和 m端的访问行为,这个标志通常就是咱们所说的公司帐号。有些公司是强帐号体系,好比腾讯的qq号,阿里的淘宝帐户,微博的微博帐户,因此这些公司的用户画像自然就能够作的比较好。可是大部分公司都没有这种强帐号体系,厉害如百度迄今也没有本身的强帐号体系。因此百度掉队不是没有缘由的。app

    那么那些没有本身强帐号体系的公司是否是就无法开发出本身的用户画像体系呢?其实也是能够折衷的,那就是用户连线。经过各类链接信息,将同一个用户来自pc端的 cookie,app端的device_id,m端的cookie 数据链接在一块儿。判断一个公司的用户画像水平基本能够经过用户连线这一块了解个大概,这个也是每一个用户画像部门最核心的算法之一。可是经过用户连线来作的画像准确率毕竟比不上有强帐号体系的公司。主要是是由于连线的覆盖率和准确率通常是矛盾的,若是连线的覆盖率低了,虽然准确率高了,可是连的用户少了,好比就连线100个用户,对总体画像的准确率不会有明显的提高。若是连线的覆盖率上去了,准确率每每会降低,你连线连一堆错的,还不如不连线。这中间的折衷每每是取决于业务自己的需求。框架

用户画像的类别机器学习

    用户画像通常是分为两类的。一类是实时用户画像,这类画像的处理逻辑通常都很简单,要求迅速响应,实时处理。数据从kafaka过来,经过storm 等实时开源框架处理以后存入redis 当中。

    第二类即是离线用户画像,这类用户画像是把当天业务方须要的用户画像提早算好,而后供给业务方使用。因为对数据的时效性要求不是那么的高,可使用较复杂的处理逻辑或者各类离线机器学习模型来保证画像的准确性。数据通常存在HDFS 和 Hbase 里面。

离线用户画像的通常处理逻辑

    离线的用户画像的数据来源通常是来自采集或者数据仓库。若是是某些特殊数据的话,可能得先通过反做弊团队的预处理,好比淘宝的刷单行为,某些品类异常的浏览行为等等。咱们利用sql 从这些数据源获取到咱们须要的数据之后,首先通过用户连线将同一个用户的行为所有连线到一块儿,而后利用 mapreduce 按照必定的处理逻辑进行处理。处理完的结果能够和历史的数据进行合并 插入到当天的分区表当中去或者存入到 hbase 当中。总体而言处理的逻辑是比较的清晰的。

 图一 :用户画像处理的通常逻辑

    可能有同窗会好奇?那么仓库的数据是从哪里来的。其实都是来自咱们平常在这个公司网站点击,浏览,购买,评论等行为。这些数据由公司的前端埋点之后,会不断的由采集收到仓库进行整理,整理成当天的流量日志。大部分的画像标签的数据源都是流量日志

用户画像的体系建设

    单个的用户画像很好作,但用户画像真正想发挥用途,必须得创建起本身的体系来。这样才能对一个用户进行全方面的描述。打包卖给别人的话,也更加值钱。初步来看用户画像的体系建设应该包括几个方面

    • 标签系统的顶层设计,具体就是咱们这个标签系统系统须要为哪些业务方服务,须要涵盖哪些类别,须要作哪些标签
    • 标签系统的维度系统建设,咱们的画像对外输出,若是只是输出中文的话,不大好用,有时候也不大好处理,就须要咱们将标签的输出的值数值化,维度化。整个标签系统的值均可以经过一个统一的数值系统或者向量系统来进行描述。
    • 标签开发规范,这个是保证标签代码的可维护性,易读性。
    • 标签系统的可扩展性,因为不少业务方都须要根据本身的需求来定制化标签,就要求咱们的标签系统应该是可扩展的,外部业务方本身定制的标签若是符合咱们标签的维度系统以及开发规范,就应该是能够扩展进咱们自己的标签系统的,供给全公司使用。
    • 标签对外平台的开发,全部的标签最好只能有一个统一的输出口径对外输出,这样就能够切实保证只有符合咱们标签开发规范的标签接入其中,同时也能作好标签系统的权限管理。

 用户画像当前的困境

    目前大部分用户画像都是基于统计的方法来作的,这种方法的优势是基础准确率比较高,可是总体的覆盖率不会很高好比我要在一个购物网站作用户感兴趣的商品的画像。若是我使用基于统计的方法利用用户在购物网站 pc,m,app端的点击,浏览,下单,购买等一系列用户行为来对用户打标签,只可以获得用户关于她/他 已经点击,浏览,下单,购买的商品的画像。可是其余商品,我虽然没有点击,不表明我对这些商品没有兴趣,但是基于统计的方法没法推广到这些用户没用点击,浏览,下单,购买的商品。

    基于统计的方法没法进行更深层次的推广,也就是缺少咱们常说的泛化能力,只会死读书,不会触类旁通。咱们更多的会经过使用机器学习或者其余算法来尝试解决这个问题。遗憾的是对于业界来讲,这种标签占整个用户画像体系的比例也不会很高。由于这种标签作的费时费力,并且效果不必定好。有一个很关键的缘由,咱们举一个例子来尝试说明一下。好比某个汽车网站想预测用户有车无车,不少时候该汽车网站经过和4s店合做等等途径可以获取到只有哪些用户确切有车。咱们在预测的时候,能够把这些有车的用户看成正样原本处理。问题在于咱们找不到确切无车的用户,至关于找不到负样本。

    通常的作法是咱们把流量日志当中那些不是确切有车的的用户都看成无车用户来看,也就是当作负样原本看。可是这个只能说明这些用户只是在该公司的数据库里是没有买车的,他现实生活中多是有车的,可是该公司并不清楚这一点。这样作的后果就是负样本里面参入了正样本,更可怕的是参入的比例有时候咱们也不大好估计。这种状况就会致使模型在训练的时候准确率降低。

    这样看来不少基于机器学习的算法其实都有样本标注的问题,对于这类标注的问题,一方面咱们能够经过其余不一样的数据来源,相互验证来保证标注的数据尽可能准确。一方面能够考虑一下无监督的学习算法好比聚类算法来解决这个问题。可是目前来看,还不大清楚有没有其余比较实用的方式来解决这类问题。

总结

   从数据挖掘的不一样方向来看的话,用户画像应该是最好入门的一个方向之一。它对技术人员的要求是会sql和mapreduce 便可。其余机器学习的知识能够一边学习一边上手。做为一个程序员,其实我心里一开始是很不喜欢用户画像这个岗位的,毕竟天天重复性的工做很容易让人疲倦。但他确实也很是的重要,是整个数据挖掘方向最靠近业务的一个方向了。不少时候,深度学习也好机器学习也罢都离业务太远了,有时候是没法落地给公司带来直接的产出,很是容易就被边缘化了。而且在互联网行业数据挖掘从业者的平均薪资也还不错。那么就经常会有一个问题,数据挖掘部门的总体人力成本很高,可是产出却至关的低,对于整个公司来看其实也是一个很大的负担。

   因此对于我我的来讲的话,技术是很重要的,可是技术自己是没有产出的,因此我要尽可能去想办法让个人技术有产出而且是能够度量的。这点落在选择公司的时候,我更多的也会考虑这个部门有没有颇有前景的业务,再看这个部门的方向是不是感兴趣的。这样可以最大限度保证个人技术有落地,有产出,不至于被边缘化,同时也能一直保持我对技术的热情。

相关文章
相关标签/搜索