欢迎你们前往腾讯云社区,获取更多腾讯海量技术实践干货哦~python
做者:颜国平
摘要:最近几年,电商行业飞速发展,各类创业公司犹如雨后春笋大量涌现,商家经过各类活动形式的补贴来获取用户、培养用户的消费习惯,即将到来的“ 购物狂欢节”尤为明显。但任何一件事情都具备两面性,高额的补贴、优惠同时了也催生了“羊毛党”。“羊毛党”的行为距离欺诈只有一步之遥,他们的存在严重破环了活动的目的,侵占了活动的资源,使得正常的用户享受不到活动的直接好处。这篇文章主要分享下腾讯本身是如何经过大数据、用户画像、建模来防止被刷、恶意撞库的。c++
“羊毛党”通常先利用自动机注册大量的目标网站帐号,当目标网站搞促销、优惠等活动的时候,利用这些帐号参与活动刷取较多的优惠,最后经过某宝等电商平台转卖获益。算法
据初步估计,全国“羊毛党”在20万人左右,他们每每有着明确的分工,已造成了几大团伙:后端
1.软件制做团伙:专门制做各类自动、半自动的黑产工具,好比注册自动机、刷单自动机等;他们主要靠出售各类黑产工具、提供升级服务等形式来获利。
2.短信代接平台:实现手机短信的自动收发。这其中,有一些短信平台是亦正亦邪,不但提供给正常的商家使用,一些黑产也会购买相关的服务。
3.帐号出售团伙:他们主要是大量注册各类帐号,经过转卖帐号来获利;该团伙与刷单团伙每每属于同一团伙。
4.刷单团伙:到各类电商平台刷单,获取优惠,而且经过第三方的电商平台出售优惠,实现套现。安全
也就是说,这些“羊毛党“在电商促销或优惠活动中,已逐步造成了相对完善的刷单及变现工做流程(见图1:电商刷单团伙工做流程):
服务器
从“羊毛党“的分工与工做流程看,他们具备如下从业特色:
1.专业化:有专业团队、人员、机器来作。
2.团伙化:已经造成必定规模的团伙,并且分工明确;从刷单软件制做、短信代收发平台、电商刷单到变卖套现等环节,已经造成完整的刷单团伙。
3.地域化:刷单黑产团伙基本分布在沿海的一些经济发达城市,好比,北京、上海、广东等城市,这或许跟发达城市更加容易接触到新事物、新观念有关。
下图2显示了咱们TOP5的黑产刷单团伙分别位于:北京、上海、广州、江苏、浙江这些沿海较发达的经济区域。
微信
面对黑产刷单,咱们有什么对抗思路呢?通常来说,对抗刷单主要从注册、登录、活动三个环节入手:
1.注册环节:识别虚假注册、减小“羊毛党”可以使用的帐号量。在注册环节识别虚假注册的帐号,并进行拦截和打击。
2.登陆场景:提升虚假帐号登陆门槛,从而减小可以到达活动环节的虚假帐号量。好比,登陆环节经过验证码、短信验证码等手段来下降自动机的登陆效率,从而达到减小虚假帐号登陆量、减轻活动现场安全压力的目的。
3.活动环节:这个是防刷单对抗的主战场,也是减小“羊毛党”获利的直接战场;这里的对抗措施,通常有两个方面: 1)经过验证码(短信、语音)下降黑产刷单的效率。
2)大幅度下降异常帐号的优惠力度。网络
面对疯狂的黑产刷单,按照对抗刷单的思路,基于腾讯的多维度大数据,腾讯专门设计并构建了电商防刷技术体系。整体防刷架构见下图3:
架构
对于风险学习引擎而言,效率问题很是关键。该模块线上采用的都是C++实现的DBScan等针对大数据的快速聚类算法,性能卓越;并且主要的工做都是线下进行,因此线上系统也不存在学习的效率问题。
风险学习引擎采用了黑/白双分类器风险断定机制,能够很好地减小对正经常使用户的误伤。例如,某个IP是恶意的IP,那么该IP上可能会有一些正常的用户,好比大网关IP。再好比,黑产经过ADSL拨号上网,那么就会形成恶意与正经常使用户共用一个IP的状况。
其中,黑分类器风险断定是根据特征、机器学习算法、规则/经验模型,来判断本次请求异常的几率。而白分类器风险断定则是判断属于正常请求的几率。见下图4示意:框架
如何实现风险评估的断定呢?咱们以黑分类器为例,来详细剖析下分类器的逻辑框架。
系统整体是采用一种矩阵式的逻辑框架。
黑分类器最初设计是总体检测断定,即按需随意地创建一个个针对黑产的检测规则、模型。但这种设计出来的结果,发现不是这个逻辑漏过了,而是那个逻辑误伤量大,要对某一类的帐号增强安全打击力度,改动起来也很是麻烦。
所以,咱们最终设计出一套矩阵式的框架(见下图5),较好地解决上述问题。
矩阵纵向则采用了Bagging方法,该方法是一种用来提升学习算法准确度的方法。它在同一个训练集合上构造预测函数系列,而后设法将他们组合成一个预测函数,从而来提升预测结果的准确性。
毫无疑问,对抗黑产刷单离不开大数据。大数据一直在安全对抗领域发挥着重要的做用,从咱们的对抗经验来看,大数据不只仅是数据规模很大,并且还包括两个方面:
1.数据广度:要有丰富的数据类型。好比,不只仅要有社交领域的数据、还要有游戏、支付、自媒体等领域的数据,这样就提供了一个广阔的视野让咱们来看待黑产的行为特色。
2.数据深度:黑产的对抗,咱们一直强调纵深防护。不只仅要有注册数据,还要有登陆,以及帐号的使用的数据,这样咱们才能更好的识别恶意。
因此想要作风控和大数据的团队,必定要注意在本身的产品上多埋点,拿到足够多的数据,先沉淀下来。
腾讯安全团队研发了一个叫魔方的大数据处理和分析的平台,底层集成了MySQL、MongoDB,Spark、Hadoop等技术,在用户层面咱们只须要写一些简单的SQL语句、完成一些配置就能够实现例行分析。
这里咱们收集了社交、电商、支付、游戏等场景的数据,针对这些数据咱们创建一些模型,发现哪些是恶意的数据,而且将数据沉淀下来。
沉淀下来的对安全有意义的数据,一方面就存储在魔方平台上,供线下审计作模型使用;另外一方面会作成实时的服务,提供给线上的系统查询使用。
用户画像,本质上就是给帐号、设备等打标签。但咱们这里主要从安全的角度出发来打标签,好比IP画像,咱们会标注IP是否是代理IP,这些对咱们作策略是有帮助的。
咱们看看腾讯的IP画像,目前沉淀的逻辑以下图6:
腾讯用户画像的维度与类别不少,这里仅举部分用户画像数据来讲明。好比用户画像其中有手机画像和QQ画像这两个重要类别。涉及画像的标签见下图7:
有了用户画像的基础数据,咱们就能够进行风险断定了。腾讯风险断定的系统现已开放为腾讯云的能力,即天御系统。咱们来看一下风险断定的基础逻辑,见下图8:
实时防护系统使用C/C++开发实现,全部的数据经过共享内存的方式进行存储,相比其余的系统,安全系统更有他本身特殊的状况,所以这里咱们可使用“有损”的思路来实现,大大下降了开发成本和难度。
但这里在安全策略方面,可能会面临一个挑战:多台机器,使用共享内存,如何保障数据一致性?其实,安全策略不须要作到强数据一致性。
从安全自己的角度看,风险自己就是一个几率值,不肯定,因此有一点数据不一致,不影响全局。可是安全系统也有本身的特色,安全系统通常突发流量比较大,咱们这里就须要设置各类应急开关,并且须要微信号、短信等方式方便快速切换,避免将影响扩散到后端系统。
经过剖析腾讯对抗“羊毛党”刷单的防刷系统技术架构与原理,咱们了解到了天御系统能够帮助我们电商企业在促销、优惠活动时,有效打击黑产刷单团伙。特别是立刻到来的双十一“购物狂欢节”,该系统将让广大电商企业更好地服务用户,真正为用户带来贴心的实惠与好处。
天御系统可适应的场景包括但不限于:
那么如何接入并使用天御系统呢?其实,电商企业接入天御系统仅须要四步,见下图9:
其中:第一步离线数据分析与第二步搭建实时模型为前期的准备工做,第三步正式接入其实并不耗费多少时间,不过第四步上线后,还须要持续的优化,以进一步提升对抗的能力。
图9 企业接入天御系统步骤
业务接入天御系统后的架构图,见下图10:
做者:颜国平,原腾讯云-天御系统研发负责人。一直负责腾讯自有验证码、业务安全、防刷、帐号安全等研发工做。内部支持的产品(游戏、电商、腾讯投资的O2O企业)很是普遍。在业务安全领域项目经验丰富,而且具有深度学习、大数据架构搭建等实战经验。
##阅读推荐
免费试用活动防刷服务
一站式知足电商节云计算需求的秘诀
代码自动生成在重构中的一次探索
此文已由做者受权腾讯云技术社区发布,转载请注明文章出处
原文连接:cloud.tencent.com/community/a…