版权声明:本文由颜国平原创文章,转载请注明出处:
文章原文连接:https://www.qcloud.com/community/article/177python
来源:腾云阁 https://www.qcloud.com/communityc++
最近1~2年电商行业飞速发展,各类创业公司犹如雨后春笋大量涌现,商家经过各类活动形式的补贴来获取用户、培养用户的消费习惯。算法
但任何一件事情都具备两面性,高额的补贴、优惠同时了也催生了“羊毛党”。后端
“羊毛党”的行为距离欺诈只有一步之遥,他们的存在严重破环了活动的目的,侵占了活动的资源,使得正常的用户享受不到活动的直接好处。安全
今天主要分享下腾讯本身是如何经过大数据、用户画像、建模来防止被刷、恶意撞库的。服务器
“羊毛党”通常先利用自动机注册大量的目标网站的帐号,当目标网站搞促销、优惠等活动的时候,利用这些帐号参与活动刷取较多的优惠,最后经过淘宝等电商平台转卖获益。微信
他们内部有着明确的分工,造成了几大团伙,全国在20万人左右:网络
这些黑产团队,有三个特色:架构
对抗刷单,通常来说主要从三个环节入手:框架
风险学习引擎:效率问题。因为主要的工做都是线下进行,因此线上系统不存在学习的效率问题。线上采用的都是C++实现的DBScan等针对大数据的快速聚类算法,基本不用考虑性能问题。
风险学习引擎:采用了黑/白双分类器风险断定机制。之因此采用黑/白双分类器的缘由就在于减小对正经常使用户的误伤。
例如,某个IP是恶意的IP,那么该IP上可能会有一些正常的用户,好比大网关IP。
再好比,黑产经过ADSL拨号上网,那么就会形成恶意与正经常使用户共用一个IP的状况。
黑分类器:根据特征、机器学习算法、规则/经验模型,来判断本次请求异常的几率。
白分类器:判断属于正常请求的几率。
咱们以黑分类器为例来剖析下分类器的整个逻辑框架。
总的来说咱们采用了矩阵式的逻辑框架,最开始的黑分类器咱们也是一把抓,随意的创建一个个针对黑产的检测规则、模型。
结果发现不是这个逻辑漏过了,而是那个逻辑误伤量大,要对那一类的帐号增强安全打击力度,改动起来也很是麻烦。
所以咱们就设计了这个一个矩阵式的框架来解决上述问题。
矩阵的横向采用了Adaboost方法,该方法是一种迭代算法,其核心思想是针对同一个训练集训练不一样的弱分类器,而后把这些分类器集合起来,构成一个最终的分类器。
而咱们这里每个弱分类器都只能解决一种账号类型的安全风险判断,集中起来才能解决全部帐户的风险检测。
矩阵纵向采用了Bagging方法,该方法是一种用来提升学习算法准确度的方法,该方法在同一个训练集合上构造预测函数系列,而后以必定的方法将他们组合成一个预测函数,从而来提升预测结果的准确性。
上面讲的部分东西,理解起来会比较艰涩,这里你们先理解框架,后续再理解实现细节。
大数据一直在安全对抗领域发挥着重要的做用,从咱们的对抗经验来看,大数据不只仅是数据规模很大,并且还包括两个方面:
因此想要作风控和大数据的团队,必定要注意在本身的产品上多埋点,拿到足够多的数据,先沉淀下来。
咱们的团队研发了一个叫魔方的大数据处理和分析的平台,底层咱们集成了MySQL、MongoDB,Spark、Hadoop等技术,在用户层面咱们只须要写一些简单的SQL语句、完成一些配置就能够实现例行分析。
这里咱们收集了社交、电商、支付、游戏等场景的数据,针对这些数据咱们创建一些模型,发现哪些是恶意的数据,而且将数据沉淀下来。
沉淀下来的对安全有意义的数据,一方面就存储在魔方平台上,供线下审计作模型使用;另外一方面会作成实时的服务,提供给线上的系统查询使用。
画像,本质上就是给帐号、设备等打标签。
用户画像 = 打标签
咱们这里主要从安全的角度出发来打标签,好比IP画像,咱们会标注IP是否是代理IP,这些对咱们作策略是有帮助的。
以QQ的画像为例,好比,一个QQ只登陆IM、不登陆其余腾讯的业务、不聊天、频繁的加好友、被好友删除、QQ空间要么没开通、要么开通了QQ空间可是评论多但回复少,这种号码咱们通常会标注QQ养号(色情、营销),相似的咱们也会给QQ打上其余标签。
标签的类别和明细,须要作风控的人本身去设定,好比:地理位置,按省份标记。性别,安男女标记。其余细致规则以此规律本身去设定。
咱们看看腾讯的IP画像,沉淀的逻辑以下图:
通常的业务都有针对IP的频率、次数限制的策略,那么黑产为了对抗,必然会大量采用代理IP来绕过限制。
既然代理IP的识别如此重要,那咱们就以代理IP为例来谈下腾讯识别代理IP的过程。
识别一个IP是否是代理IP,技术不外乎就是以下四种:
以上代理IP检测的方法几乎都是公开的,可是盲目去扫描全网的IP,被拦截不说,效率也是一个很大的问题。
所以,咱们的除了利用网络爬虫爬取代理IP外,还利用以下办法来加快代理IP的收集:经过业务建模,收集恶意IP(黑产使用代理IP的可能性比较大)而后再经过协议扫描的方式来判断这些IP是否是代理IP。天天腾讯都能发现千万级别的恶意IP,其中大部分仍是代理IP。
实时系统使用C/C++开发实现,全部的数据经过共享内存的方式进行存储,相比其余的系统,安全系统更有他本身特殊的状况,所以这里咱们可使用“有损”的思路来实现,大大下降了开发成本和难度。
数据一致性,多台机器,使用共享内存,如何保障数据一致性?
其实,安全策略不须要作到强数据一致性。
从安全自己的角度看,风险自己就是一个几率值,不肯定,因此有一点数据不一致,不影响全局。
可是安全系统也有本身的特色,安全系统通常突发流量比较大,咱们这里就须要设置各类应急开关,并且须要微信号、短信等方式方便快速切换,避免将影响扩散到后端系统。
适应的场景包括:
Q:风险学习引擎是自研的,仍是使用的开源库?
风险学习引擎包括两个部分,线上和线下两部分:
线上:本身利用c/c++来实现。
线下:涉及利用python开源库来作的,主要是一些通用算法的训练和调优。
Q:请问魔方平台中用到的MongDB是否是通过改造?由于MongDB一直不被看好,出现问题也比较多。
咱们作了部分改造,主要是DB的引擎方面。
Q:请问黑分类器和白分类器有什么区别?
白分类器主要用来识别正经常使用户,黑分类器识别虚假用户。
Q:风险几率的权重指标是如何考虑的?
先经过正负样本进行训练,而且作参数显著性检查;而后,人工会抽查一些参数的权重,看看跟经验是否相符。
Q:安全跟风控职责如何区分呢?
相比安全,风控的外延更丰富,更注重宏观全局;针对一个公司来说,风控是包括安全、法务、公关、媒体、客服等在内一整套应急处理预案。
Q:若是识别错了,误伤了正经常使用户会形成什么后果么?好比影响单次操做仍是会一直失败。
若是识别错了正经常使用户不会被误伤,可是会致使体验多加了一个环节,如弹出验证码、或者人工客服核对等。
做者:颜国平,原腾讯云-天御系统研发负责人。一直负责腾讯自有验证码、业务安全、防刷、帐号安全等研发工做。内部支持的产品(游戏、电商、腾讯投资的O2O企业)很是普遍。在业务安全领域项目经验丰富,而且具有深度学习、大数据架构搭建等实战经验。