文/朱季谦前端
本书的内容正如书名所述,是为要略而非攻略,即做者站在一个更为宏观的角度,以自身的从业经验对当今风控领域作了一番较为全貌的总结概述。书中的章节内容有精有简,既为要略,那么就没法苛求其内容都足够全面与详细。它更像是一部风控领域的科普类简述做品,在广度上能较好地让读者了解到风控各方面的现状及走向,但若要谈及深度,则多少有种“师父领进门,修行在我的”的感受。这本书其实有挺多人推荐,一方面是书籍出版时间距离如今很近,一方面则是填补风控业务领域入门书籍的空白,只是通篇读完,好的地方是有,值得吐槽的地方也很多。总而言之,对于像我这样风控小白而言,仍是值得翻阅一番。算法
正如做者在序中所言,读者经过仔细阅读本书,能够对互联网反欺诈的过去、如今和将来有一个系统的认识。浏览器
全书总共分为四个部分,第一部分介绍黑产欺诈团伙的运做套路和攻击手段;第二部分是做者总结其在构建反欺诈技术体系过程当中沉淀的实践经验;第三部分则为与黑产对抗的实战案例,以及机器学习算法的综合运用;第四部分介绍其对物联网、内容安全、隐私合规等方面的实践和对海外厂商的观察,这更像是一种对风控将来的展望。安全
在书中的第一部份内容中,又划分为黑产发展态势与黑产武器库概览两章节,其中,黑产发展态势介绍黑色产链的结构与演变,而黑产武器库概览则是介绍主要的欺诈方式与工具,包括虚假号码、代理IP、设备伪造工具。微信
在黑产发展态势中,重点介绍了目前市场上主要的反欺诈词典术语,包括,垃圾注册、薅羊毛、众包、黄牛/刷单、刷单、套利、空包等,其中有几个术语单从字面上没看懂是怎么一回事,如垃圾注册、空包与众包。网络
垃圾注册,通俗地理解,如常见的微博买粉、公众号刷阅读刷点赞刷评论,这些都是经过脚本或者其余方式来大批量恶意注册帐户实现的,这种行为即为垃圾注册;空包即虚假发送快递、发送空快递或者包裹,用以达到给商家刷单的效果。比较难理解的多是众包,众包的意思,是由多个独立的个体共同自愿参与完成一项任务,注意一点,共同与自愿是该模式的核心。它属于一种广撒网意义上的外包,与传统外包相比,都是将任务分发到组织以外的人员手里完成,但众包更侧重于开源与自愿上的外包,它面向全部大众,讲究自愿合做共创价值,能够是有偿也多是无偿,也就是说,通常而言不存在以合同为约束的劳资关系。而传统外包最明显特征是花钱雇佣人员来提供服务,是一种雇佣的劳资关系。app
书中拿众包薅羊毛案例来表述该术语:在某微信群中,羊头和羊毛党配合,羊头负责收集线报并同步到微信群内。羊毛党参与活动,他们低价购买商品,直接转售给羊头,羊头借此囤积大量的低价商品,再经过其余线下渠道转售出去。机器学习
众包这一模式被做者用在薅羊毛欺诈行为当中来表述,容易给人形成一种错觉,即众包模式与空包、垃圾注册、薅羊毛同样,都是一种恶意行为,实际上并不是如此。工具
众包这一律念,源于对企业模式的一种反思,通俗的说,这是一种有可能颠覆传统企业的创新模式。传统的企业模式,都是以雇佣关系来维持员工与企业的关系。但在众包概念里,更有一种区块链里去中心化的味道,不存在上下级,不存在雇佣关系,更可能是一种自愿合做,而合做,讲究的是并肩前行,但前提是,须要有利益驱使,这种利益驱使则体如今多作多得的基础之上。学习
值得注意的是,众包模式已经出现不少实际落地案例,最多见的如美团骑手、滴滴接单、货拉拉搬家等,它们都有一个类似的地方,即任务由平台发出去,我的经过注册平台app可去领取任务,完成,拿钱。可能不少人并无意识到,咱们日常所点的外卖派送,其背后就存在众包这一创新概念。
我为何要花那么多笔墨阐述众包这一律念?
由于当把黑产链总体结构了解完以后,会发现众包这一律念在整条产业链里充当极其重要的角色,如书中提到的打码平台——其落地理念就是众包模式:平台上汇集大量想在网上赚钱的劳工,当攻击者在拿到验证码的图片后,就上传给打码平台,打码平台会把图片下发给这些劳工,由他们随机领取任务来解答,而后把正确答案返回。
能够说,这一创新模式,某种意义上很值得研究学习。
关于黑产方面的描述,做者更可能是站在羊毛党这类团伙欺诈手段上来详细展开,比较遗憾的是,其余如电信欺诈黑产,则简单地一笔带过,但做者在文中却这样写道:“在现实世界中还有一类更加凶残的黑产团伙——电信诈骗团伙。这类黑产团伙的危害远远超过上文所说的羊毛党类黑产。”
至于如何危害以及有哪些手段,做者没有详细探讨。或许就像水墨画里的留白手法通常,只指明一个方向,但点到为止,剩下的,就靠读者慢慢在实践当中探索与总结。
书中用一组数据反映出这条成熟黑产链背后的成员年龄分布,其中在18岁至24岁的参与者占比竟超过50%。这个年龄段的人,能够说都是互联网的原住民,他们大多都颇有想法,也更加了解互联网世界。但就是这样一群人,在金钱的驱动下,其分工已经变得愈来愈细,专业化程度不断提高。他们一样普遍地使用大数据分析、深度学习以及人工智能等新技术,这时,技术就变成一把双刃剑,意味着,道高一尺可能魔高一丈。黑产在精细化的同时,也将逼着风控向精细化方向发展,但究竟如何发展?这是一个暂无明确答案的问题。
第一部分的内容,做者以一句“很多看似正规的互联网企业为了得到极速的成长,甚至会主动引入黑产生态的流量”当作最后结尾。这是很值得玩味的一段话。拿一个简单案例来讲明,即一新兴的电商app,可能为了提升流量,故意给羊毛党开一个口,主动引来羊毛党,这样一来,平台用户量就一会儿上来了,进而用户活跃数据报表就丰满好看了。
只是这样的作法是好或坏,我没法去作评判。
前面主要都是第一部分的内容阅读思考,若要以一种读到无字的地方要比有字的地方多的理念去深刻研究,大概是能够扯出更多读后理解,但没有必要,由于整本书的核心干货在第二部分与第三部分。这两部份内容更可能是做者的一种经验总结,它提供给我最大价值在于,是把之前实际作过的但不知道其业务做用的地方都有一个较好的领悟。通俗地打个比喻,就是在制做一个药物的过程,我负责的只是其中一个很小的环节,可能只是负责是把药植物碾碎,虽身在其中,但不知道所参与制做的药物成型以后究竟有何做用,直到有一天,忽然看到相关的药物说明书,才恍然明白,原来当初参与制做的药物,是经过这样的方式用来治疗感冒的。
在第三部分的反欺诈体系建设章节中,做者根据经验与教训提出一套贯穿事前、事中、过后的动态防控理念。事前是针对前端风险的识别,事中是创建基于帐号、设备和黑产情报的三维立体风险模型与智能决策机制来防控欺诈交易,过后则是沉淀案件与溯源。针对这一套动态防控理念,做者总结出一个三层的反欺诈防控体系,包含终端风控层、分析决策层和数据画像层,其中,还有一个威胁情报体系贯穿这三层。根据其提供的插图可知,其实这三层就是事前、事中、过后这三块的具体技术实现。
这套三层反欺诈防控体系能够说是书中第三部分的总纲领,就像是小说创做里常说的大纲,然后面的内容则是在大纲的基础上,分门别类地去细化完善。第三部份内容除去反欺诈体系建设一章外,另有八个章节,其中设备指纹、生物探针、智能验证码这三章节属于防控体系当中的终端风控层,其中最重要一环是设备指纹;决策引擎系统、实时指标计算、风险态势感知属于分析决策层,这是各类数据、规则和模型汇总计算的中心;最后名单体系属于数据画像层,包括黑产攻击事件、黑手机号名单、IP画像、设备画像等;欺诈情报体则属于贯穿三层的威胁情报体系的内容。
这部分的业务知识点,除了生物探针、智能验证码,其他都或多或少在实际工做当中有所接触或者听闻过。
接下来,把书中提到的三层反欺诈体系当作读书笔记梳理总结下。
1、终端风控层
这些特征属性参数在不一样的操做系统上有所差别,书中主要概述了Android设备指纹参数、iOS设备指纹参数、Web设备指纹参数这三种,参数图示以下:
图-Android 系统中比较稳定的设备参数
图-iOS 系统中比较稳定的设备参数
图-浏览器比较稳定的设备参数
做者在书中给出几种对抗黑产破解验证的方案,这些方法难以被打码平台和AI破解,值得参考了解:
该方法是在攻击者获取验证图片步骤前,增长检测手段,如检测用户的设备环境是否存在异常、是否为模拟器、有无安装做弊工具,除此以外,还给验证码加入其余防控维度,包括归属地、是否设备黑名单、IP画像等等。
在如何设计一款优秀的验证码方面,做者给出了一些参考意见,智能验证码类型包括滑块验证、图文点选、空间旋转、空间推理等,在实际设计中都听从三个原则:对人容易、对机器难、有趣好玩。
总而言之,就是在有效防御的同时具有良好的用户体验,最理想的状态是,对正经常使用户无感,对异经常使用户弹框验证。
针对该原则,做者阐述了一款智能验证码的设计原理:经过持续对用户的终端设备、网络环境和生物行为等非敏感特征进行风险检测、关联分析,并引入行为生物识别算法,实时判断当前用户是否存在风险、对应的风险程度,根据用户配置的策略进行风险决策。智能验证码提供自动智能预判处理机制,例如,用户无风险一键经过,用户有风险则根据不一样风险等级弹出不一样难度的验证码进行挑战。同时,用户能够根据实际状况须要选择不一样的验证类型、验证素材、验证语言、验证策略等。
以上就是终端风控层的内容,主要核心就是事前进行前端风险识别,提升防控能力。
2、分析决策层
整本书我最想吐槽的,应该就是决策引擎系统这一章了。
决策引擎系统应该反欺诈的灵魂所在,但很遗憾,本书中关于决策引擎方面的内容,略过于精简,没能给稍有经验的读者带来较好新鲜干货,但仍存在一点参考价值。
这块内容主要阐述决策引擎系统的特色,其核心是规则引擎,而规则引擎又包括规则可视化管理、规则推送、规则执行等模块。
决策引擎规则管理界面的建立和管理一样是具有可视化界面,根据书中插图能够看出,其规则管理是居于策略下的,以下图所示,该批量规则属于“异常登陆_安卓”该策略下,而策略是否又在策略集底下,书中没有明确说明,根据插图,可看出,其策略底下包含了规则管理与指标定义两个tab类型。
书中给出了三种不一样规则引擎的实现方案,包括以Apache Groovy 为表明的脚本引擎,以Drools规则语言为表明的开源规则引擎,以ILOG 为表明的商业规则引擎,相应的介绍图示如:
这些指标计算均可以统一抽象出几个固有特征:时间窗口、事件、主属性、副属性、计算逻辑的组合。
所以,以上的经常使用指标能够抽象出以下图所示:
风险态势感知系统主要起到风险预警的做用,主要用于快速发现现有风控系统的防护盲区,预警线上逐渐失效的防控策略,根据实际对抗效果不断对风控系统进行完善。实现该感知系统主要有三种方案:
主要分为对核心风险事件数据分析与核心业务数据分析。其中,核心风险事件数据是风控系统运行过程产生的数据,如日调用量、拒绝率、拒绝变化率、审核率、字段获取率等,简单点的说,这些都算平常反欺诈调用统计报表里的数据。先前我曾参与过白骑士反欺诈调用统计报表相关的开发,虽知道如何实现其统计逻辑,但这些数据背后具体能分析出些什么风险信息来,我是不甚了解的。此次阅读书中这块有关统计分析的内容,在必定程度上,算是给我扫了一下数据分析的盲区。如调用量的分析,若其忽然大幅度波动时,每每意味着,虚假黑产流量的增长;风控数据字段的获取状况,则能从侧面反映出当前系统有无发生风险等,其他触类旁通,均可从一个数据当中,分析其背后暗含的信息量。另外,核心业务数据分析,则是指业务自身的核心数据,如电商、直播过程产生的业务数据,以电商业务为例,预警业务数据包括可收货地址分布、店铺分布、商品类目分布、IP分布等,简单打个比方,如收货地址都分布密集在一个范围很小的地域,那么,这数据背后就有多是团伙欺诈做案。
主要有特征抽取,创建连通图,群组聚类。
3、数据画像层
该层主要以风险数据名单体系建设为主。名单,包括白名单、灰名单和黑名单。名单的价值在于把业务系统中曾经出现过、较高风险的数据按照必定分类进行存储,提供给不一样场景中的业务团队作风险参考,每一条名单数据都表示它曾参与过某次风险行为,所以,具备较高的准确性。
做者在书中总结出名单体系的设计思路:
在互联网反欺诈业务中,常见的几种名单主键是:手机号、身份证、银行卡、IP和各种设备标识。
标签能够指向一种明确的风险,如创建一个“刷单的手机号黑名单”,这样的标签直接指向一种特定类别的风险(如刷单这种具体的风险)。标签也能够指向一种风险相关的特征,仍是以手机号为例,若是创建的是“虚假号码”的手机号名单,则不直接指向具体风险结果,而是表示和特定类型的风险(如刷单、薅羊毛)相关性很是高。
绝大部分名单数据都有时效性,若是不能及时更新维护,其价值在一个特定时间点以后会迅速衰减。另外,数据自身特性或数据背后的某些因素发生了改变,也可能会致使该名单数据快速失效。关于名单体系的生命周期维护,书中提出一种比较有意思的参考方案,即从名单数据命中率变化来肯定其生命周期,据做者表述,这是一种成本较低的方式。主要有两种分析命中率从而肯定名单生命周期的方法:一是选定一批虚假号码做为样本,持续观察这批数据在决策中命中率是如何变化的。找到较为合适的一个时间跨度,做为虚假号码名单数据的有效期;二是从近一年的事件中,提取全部的手机号数据,和全量的已知虚假号码进行比对,而后追溯命中部分名单数据的入库时间和最后更新时间,进而计算出虚假号码的命中率状况。两种区别主要在于,前者须要较长的时间周期才能得出结论,后者在短时间内就能给出结论。
名单数据通常用在注册、登陆和体现等相对重要的业务环节,这样就意味着,若形成误杀每每会引起比较严重的影响。反过来思考,若想提升名单体系的质量管理,其实质就是下降名单的误杀。然而如做者在书中所言,误杀率评估相对比较难作,且不一样数据状况不一样。做者使用的误杀评估方法,是收集策略效果状况、客户投诉等多方面因素综合量化评估其变化趋势。这个方法比较抽象难懂,我暂时也没有理解里面涉及的原理。
4、威胁情报体系
该体系通俗理解,就相似一个间谍,打入到黑产团伙当中,去收集分析黑产团伙使用哪些资源和技术手段,包括但不限于获取“刷单”、“薅羊毛”等黑产攻击事件细节、黑产新型的做弊工具及黑产使用的各种资源信息,简而言之,就是知己知彼,最后通过情报分析,再有的放矢地作出应对措施。
做者根据自身经验总结了欺诈情报体系的建设思路:
经过卧底黑产网络、监控黑产论坛等方式进行情报采集,主要包括数据情报、技术情报和事件情报采集。数据情报主要是手机号、IP、设备及邮箱帐户等数据采集,沉淀出相应的黑名单数据;技术情报是获取某种欺诈技术的详细信息,包括原理、用途、危害等;事件情报则是捕获某些即将发生、正在发生或者已经发生过的欺诈事件信息。
将各个渠道收集的原始数据信息,包括文本、图片、音视频文件甚至代码片断等,经过自动化或者人工运营的方式进行分析。其中,做者表述其公司已基本实现文本类情报的自动化分析,同时,给出了相关的分析思路:第一步,先进行智能分析,即在提炼过程当中,运用分词算法、关系抽取、词性标注、实体识别等方式,对目标实体词汇进行识别、关联、清洗,最后提炼出目标风险信息;第二步,是进行风险预警,即将提炼出的风险信息,再进一步完善风险的描述(如识别语句中的黑化,还原欺诈方式,掌握黑灰产的破解思路如何绕过平台,预估参与本次活动的人数,形成的损失等)。最终向用户输出结构化的完整预警信息,便于用户进行快速决策。
以上,就是做者总结出的反欺诈风控系统的构建思路,阅读的过程中,结合先前的一些实际经验,可对这部份内容从新作一遍梳理理解,更好地了解到,工做当中业务相关的原理。
第三部份内容主要是实战案例,分为机器学习算法使用与互联网反欺诈实战。机器学习算法章节包括了特征工程、模型选择、模型训练以及工程化和业务落地。这部份内容比较抽象难懂,我只是简单地过了一下。在阅读过程当中,有一个地方让我比较有印象,就特征工程里的特征维度,我原觉得在机器学习中,获取到的特征应是越多越好,然而,做者在书中指出,实际操做中并不是特征维度是越多越好,所以,特征维度较多的数据样本,一般须要先进行降维处理。通俗的理解,应该就是剔除非主要特征,保留主要的特征,就有点相似二八原则的感受。
特征工程的降维方法,书中提到了两种,一是经验直觉法,也就是依赖我的经验来剔除样本的冗余特征;二是统计分析法,是一种从统计分析学角度考虑的方法,包括缺失值剔除、低方差滤波、高相关滤波等方法。缺失值剔除能够简单理解为,在一堆样本当中,若大部分样本是没有该维度数据的,那么该维度的特征是能够被剔除;低方差滤波能够理解,若某一特征维度几乎没有变化,即一直保持近乎一样的状态,那这样的特征维度也是没必要要的,能够被剔除忽略;高相关滤波则是存在高度相同的特征维度时,只取其中一个特征做为验证便可。
在书中,提到了几种降维算法,包括PCA、KPCA、PCR。
模型选择包括决策树、随机森林、K-Means、神经网络、卷积神经网络、递归神经网络和图计算,做者在书中用一种图来归纳表达:
本部份内容另一章是互联网反欺诈实战,做者在书中提到了几种反欺诈实战案例,包括垃圾注册风险识别、批量登陆风险识别、“薅羊毛”风险识别、裂变拉新做弊风险识别、“任务”做弊风险识别、恶意退单风险识别。这些内容都具有必定的参考意义,可从中收获一些规则策略的设计与部署以及运营监控实现思路。固然,这些都只是做者我的的经验总结,不可能都通用,当作学习参考便可。
书中的第四部分,取名“新的战场”,应是做者对将来风控的一个展望与关注。这部份内容主要包括物联网时代的风控、内容安全与合规、风控与数据合规使用与海外风控公司介绍。
内容与数据安全方面,更可能是从数据规范化方面阐述,总体比较枯燥,能够理解成,风控领域已经从野蛮生长进入到一个合法合规的时代,在这样一种大环境下,更须要注重法律规范。
物联网风控方面的阐述,做者彷佛在预测着风控时代一个更大市场规模的出现,物联网打通虚拟和现实世界,这就意味着,黑产的攻击再也不局限于虚拟网络,其攻击可能会影响到终端用户人身安全,甚至社会稳定,这就意味着,物联网时代的风控,任重而道远。
做者在书中提到,物联网面临的安全注意在“云、管、端”层面,即物联网的云端平台、网络通讯和终端设备。针对这些层面可能面临的威胁,做者提出了一套物联网安全风险控制体系建设思路,同时,就相似反欺诈体系同样,物联网安全体系中一样需具有一套安全风险态势感知系统。物联网风控相关内容与实际工做的金融风控有较多差别,且暂未有成熟和普遍的落地实际,故可作了解便可。
在本书中,最后一块内容是海外风控公司的介绍。这部份内容看似可有可无,其实一样存在一些值得探索的东西在里面。由于咱们所在的这个世界存在各类各样的信息差,而信息差的获取,在某种程度而言,就是一种优点,不少人就是靠着信息差大发横财。书中提到的海外风控公司,是否存在一些与国内不同的东西,一样是值得去了解下的。
读完这本书,或多或少是有所收获的,但这样的收获其实仍是浮于表面,若要有更加深刻的理解,还需在漫长的实践当中,不断积累与反思,才可能有更加深入的理解与掌握。
毕竟,冰冻三尺非一日之寒。