互联网公司数据安全保护新探索

近年来,数据安全形势愈加严峻,各类数据安全事件层出不穷。在当前形势下,互联网公司也基本达成了一个共识:虽然没法彻底阻止攻击,但底线是敏感数据不能泄漏。也便是说,服务器能够被挂马,但敏感数据不能被拖走。服务器对于互联网公司来讲,是能够接受的损失,但敏感数据泄漏,则会对公司产生重大声誉、经济影响。html

在互联网公司的数据安全领域,不管是传统理论提出的数据安全生命周期,仍是安全厂商提供的解决方案,都面临着落地困难的问题。其核心点在于对海量数据、复杂应用环境下的可操做性不佳。前端

例如数据安全生命周期提出,首先要对数据进行分类分级,而后才是保护。但互联网公司基本上都是野蛮生长,发展壮大之后才发现数据安全的问题。但存量数据已经造成,日以万计的数据表在增加,这种状况下如何实现数据分类分级?人工梳理显然不现实,梳理的速度赶不上数据增加速度。正则表达式

再例如安全厂商提供的数据审计解决方案,也都是基于传统关系型数据库的硬件盒子。Hadoop环境下的数据审计方案是什么?面对海量数据,不少厂商也买不起这么多硬件盒子啊。算法

所以,互联网公司迫切须要一些符合自身特色的手段,来进行数据安全保障。为此,美团点评信息安全中心进行了一些具体层面的探索。这些探索映射到IT的层面,主要包括应用系统和数据仓库,接下来咱们分别阐述。数据库

1、应用系统

应用系统分为两块,一是对抗外部攻击,是多数公司都有的安全意识,但意识不等于能力,这是一个负责任企业的基本功。传统问题包括越权、遍历、SQL注入、安全配置、低版本漏洞等,这一类在OWASP的Top10风险都有提到,在实践中主要考虑SDL、安全运维、红蓝对抗等手段,且以产品化的形式来解决主要问题。这里不作重点介绍。后端

1.1 扫号及爬虫

新的形势下,还面临扫号、爬虫问题。扫号是指撞库或弱口令:撞库是用已经泄漏的帐号密码来试探,成功后轻则窃取用户数据,重则盗取用户资金;弱口令则是简单密码问题。对于这类问题,业界不断的探索新方法,包括设备指纹技术、复杂验证码、人机识别、IP信誉度,试图多管齐下来缓解,但黑产也在不断升级对抗技术,包括一键新机、模拟器、IP代理、人类行为模仿,所以这是个不断的对抗过程。安全

举个例子,有公司在用户登陆时,判断加速等传感器的变化,由于用户在手机屏幕点击时,必然会带来角度、重力的变化。若是用户点击过程当中这些传感器没有任何变化,则有使用脚本的嫌疑。再加上一个维度去判断用户近期电量变化,就能够确认这是一台人类在用的手机,仍是黑产工做室的手机。黑产在对抗中发现公司用了这一类的策略,则很轻易的进行了化解,一切数据均可以伪造出来,在某宝上能够看到大量的此类技术工具在出售。服务器

爬虫对抗则是另外一个新问题,以前有文章说,某些公司的数据访问流量75%以上都是爬虫。爬虫不带来任何业务价值,并且还要为此付出大量资源,同时还面临数据泄漏的问题。网络

在互联网金融兴起后,爬虫又产生了新的变化,从原来的未受权爬取数据,变成了用户受权爬取数据。举例来讲,小张缺钱,在互联网金融公司网站申请小额贷款,而互联网金融公司并不知道小张能不能贷,还款能力如何,所以要求小张提供在购物网站、邮箱或其余应用的帐号密码,爬取小张的平常消费数据,做为信用评分参考。小张为了获取贷款,提供了帐号密码,则构成了受权爬取。这和以往的未受权爬取产生了很大的变化,互联网金融公司能够进来获取更多敏感信息,不但加剧了资源负担,还存在用户密码泄漏的可能。架构

对爬虫的对抗,也是一个综合课题,不存在一个技术解决全部问题的方案。解决思路上除了以前的设备指纹、IP信誉等手段以外,还包括了各类机器学习的算法模型,以区分出正常行为和异常行为,也能够从关联模型等方向入手。但这也是个对抗过程,黑产也在逐渐摸索试探,从而模拟出人类行为。将来会造成机器与机器的对抗,而决定输赢的,则是成本。

1.2 水印

近年来业界也出现了一些将内部敏感文件,截图外发的事件。有些事件引发了媒体的炒做,对公司形成了舆论影响,这就须要可以对这种外发行为进行溯源。而水印在技术上要解决的抗鲁棒性问题,针对图片的水印技术包括空间滤波、傅立叶变换、几何变形等,简单的说是将信息通过变换,在恶劣条件下还原的技术。

1.3 数据蜜罐

是指制做一个假的数据集合,来捕获访问者,从而发现攻击行为。国外已经有公司作出了对应的产品,其实现能够粗暴地理解为,在一个数据文件上加入了一个“木马”,全部的访问者再打开后,会把对应记录发回服务器。经过这个“木马”,能够追踪到攻击者细节信息。咱们也曾作过相似的事情,遗憾的是,这个数据文件放在那里好久,都无人访问。无人访问和我咱们对蜜罐的定位有关,现阶段咱们更愿意把它做为一个实验性的小玩意,而不是大规模采用,由于“木马”自己,可能带有必定的风险。

1.4 大数据行为审计

大数据的出现,为关联审计提供了更多的可能性,能够经过各类数据关联起来分析异常行为。这方面,传统安全审计厂商作了一些尝试,但从客观的角度来看,还比较基础,没法应对大型互联网公司复杂状况下的行为审计,固然这不能苛求传统安全审计厂商,这与生意有关,生意是要追求利润的。这种状况下,互联网公司就要本身作更多的事情。

例如防范内鬼,能够经过多种数据关联分析,经过“与坏人共用过一个设备”规则,来发现内鬼。触类旁通,则能够经过信息流、物流、资金流等几个大的方向衍生出更多符合自身数据特色的抓内鬼规则。

除此以外,还能够经过UEBA(用户与实体行为分析)来发现异常,这须要在各个环节去埋点采集数据,后端则须要对应的规则引擎系统、数据平台、算法平台来支撑。

例如常见的聚类算法:某些人与大多数人行为不一致,则这些人可能有异常。具体场景能够是:正经常使用户行为首先是打开页面,选择产品,而后才是登陆、下单。而异常行为能够是:先登陆,而后修改密码,最后下单选了一个新开的店,使用了一个大额优惠券。这里每个数据字段,均可以衍生出各类变量,经过这些变量,最后能够有一个异常判断。

再例如关联模型,一个坏人团伙,一般是有联系的。这些维度能够包括IP、设备、WiFi MAC地址、GPS位置、物流地址、资金流等若干维度,再结合本身的其余数据,能够关联出一个团伙。而团伙中若是有一我的标记为黑,则关系圈则会根据关系强弱进行信誉打分降级。

UEBA的基础是有足够的数据支撑,数据能够是外部的数据供应商。例如腾讯、阿里都提供一些对外数据服务,包括对IP信誉的判断等,使用这些数据,能够起到联防联控的效果。也能够是内部的,互联网公司总会有若干条业务线服务一个客户,这就要看安全人员的数据敏感度了,哪些数据能为本身所用。

1.5 数据脱敏

在应用系统中,总会有不少用户敏感数据。应用系统分为对内和对外,对外的系统脱敏,主要是防止撞号和爬虫。对内的系统脱敏,主要是防止内部人员泄漏信息。

对外系统的脱敏保护,能够分层来对待。默认状况下,对于银行卡号、身份证、手机号、地址等关键信息,强制脱敏,以****替换关键位置,这样即便被撞库或者爬虫,也获取不到相关信息,从而保护用户数据安全。但总有客户须要看到本身或修改本身的完整信息,这时就须要分层保护,主要是根据经常使用设备来判断,若是是经常使用设备,则能够无障碍的点击后显示。若是很是用设备,则推送一个强验证。

在平常业务中,美团点评还有一个特色。外卖骑手与买家的联系,骑手可能找不到具体位置,须要和买家进行沟通,这时至少包括了地址、手机号两条信息暴露。而对于买家信息的保护,咱们也进行了摸索试探。手机号码信息,咱们经过一个“小号”的机制来解决,骑手获得的是一个临时中转号码,用这个号码与买家联系,而真实号码则是不可见的。地址信息,咱们在系统中使用了图片显示,在订单完成以后,地址信息则不可见。

对内系统的脱敏保护,实践中能够分为几个步骤走。首先是检测内部系统中的敏感信息,这里能够选择从Log中获取,或者从JS前端获取,两个方案各有优劣。从Log中获取,要看公司总体上对日志的规范,否则每一个系统一种日志,对接周期长工做量大。从前端JS获取,方案比较轻量化,但要考虑性能对业务的影响。

检测的目的是持续发现敏感信息变化,由于在内部复杂环境中,系统会不断的改造升级,若是缺乏持续监控的手段,会变成运动式工程,没法保证持续性。

检测以后要作的事情,则是进行脱敏处理。脱敏过程须要与业务方沟通明确好,哪些字段必须强制彻底脱敏,哪些是半脱敏。应用系统权限建设比较规范的状况下,能够考虑基于角色进行脱敏,例如风控案件人员,是必定须要用户的银行卡完整信息的,这时候能够根据角色赋予免疫权限。但客服人员则不须要查看完整信息,则进行强制脱敏。在免疫和脱敏之间,还有一层叫作半脱敏,是指在须要的时候,能够点击查看完整号码,点击动做则会被记录。

就脱敏总体而言,应该有一个全局视图。天天有多少用户敏感信息被访问到,有多少信息脱敏,未脱敏的缘由是什么。这样能够总体追踪变化,目标是不断下降敏感信息访问率,当视图出现异常波动,则表明业务产生了变化,须要追踪事件缘由。

2、数据仓库

数据仓库是公司数据的核心,这里出了问题则面临巨大风险。而数据仓库的治理,是一个长期渐进的建设过程,其中安全环节只是其中一小部分,更多的则是数据治理层面。本文主要谈及安全环节中的一些工具性建设,包括数据脱敏、隐私保护、大数据行为审计、资产地图、数据扫描器。

2.1 数据脱敏

数据仓库的脱敏是指对敏感数据进行变形,从而起到保护敏感数据的目的,主要用于数据分析人员和开发人员对未知数据进行探索。脱敏在实践过程当中有若干种形式,包括对数据的混淆、替换,在不改变数据自己表述的状况下进行数据使用。但数据混淆也好,替换也好,实际上都是有成本的,在大型互联网公司的海量数据状况下,这种数据混淆替换代价很是高昂, 实践中经常使用的方式,则是较为简单的部分遮盖,例如对手机号的遮盖,139****0011来展现,这种方法规则简单,能起到必定程度上的保护效果。

但有些场景下,简单的遮盖是不能知足业务要求的,这时就须要考虑其余手段,例如针对信用卡号码的的Tokenization,针对范围数据的分段,针对病例的多样性,甚至针对图片的base64遮盖。所以须要根据不一样场景提供不一样服务,是成本、效率和使用的考量结果,

数据遮盖要考虑原始表和脱敏后的表。原始数据必定要有一份,在这个基础上是另外复制出一张脱敏表仍是在原始数据上作视觉脱敏,是两种不一样成本的方案。另外复制一张表脱敏,是比较完全的方式,但等于每张敏感数据表都要复制出来一份,对存储是个成本问题。而视觉脱敏,则是经过规则,动态的对数据展示进行脱敏,能够较低成本的实现脱敏效果,但存在被绕过的可能性。

2.2 隐私保护

隐私保护上学术界也提出了一些方法,包括K匿名、边匿名、差分隐私等方法,其目的是解决数据聚合状况下的隐私保护。例若有的公司,拿出来一部分去除敏感信息后的数据公开,进行算法比赛。这个时候就要考虑不一样的数据聚合后,能够关联出某我的的我的标志。目前看到业界在生产上应用的是Google的DLP API,但其使用也较为复杂,针对场景比较单一。隐私保护的方法,关键是要可以进行大规模工程化,在大数据时代的背景下,这些还都是新课题,目前并不存在一个完整的方法来解决隐私保护全部对抗问题。

2.3 大数据资产地图

是指对大数据平台的数据资产进行分析、数据可视化展示的平台。最多见的诉求是,A部门申请B部门的数据,B做为数据的Owner,固然想知道数据给到A之后,他是怎么用的,有没有再传给其余人使用。这时候则须要有一个资产地图,可以跟踪数据资产的流向、使用状况。换个角度,对于安所有门来讲,须要知道当前数据平台上有哪些高敏感数据资产,资产的使用状况,以及平台上哪些人拥有什么权限。所以,经过元数据、血缘关系、操做日志,造成了一个可视化的资产地图。造成地图并不够,延伸下来,还须要可以及时预警、回收权限等干预措施。

2.4 数据库扫描器

是指对大数据平台的数据扫描,其意义在于发现大数据平台上的敏感数据,从而进行对应的保护机制。一个大型互联网公司的数据表,天天可能直接产生多达几万张,经过这些表衍生出来更多的表。按照传统数据安全的定义,数据安全第一步是要分类分级,但这一步就很难进行下去。在海量存量表的状况下,该怎样进行分类分级?人工梳理显然是不现实的,梳理的速度还赶不上新增的速度。这时候就须要一些自动化的工具来对数据进行打标定级。所以,数据库扫描器能够经过正则表达式,发现一些基础的高敏感数据,例如手机号、银行卡等这些规整字段。对于非规整字段,则须要经过机器学习+人工标签的方法来确认。

综上,数据安全在业务发展到必定程度后,其重要性愈加突出。微观层面的工具建设是一个支撑,在尽可能减小对业务的打扰同时提升效率。宏观层面,除了自身体系内的数据安全,合做方、投资后的公司、物流、骑手、商家、外包等各种组织的数据安全状况,也会影响到自身安全,可谓“唇亡齿寒”。而在当前各种组织安全水平良莠不齐的状况下,就要求已经发展起来的互联网公司承担更多的责任,帮助合做方提升安全水平,联防共建。

做者简介

鹏飞,美团点评集团安所有数据安全负责人,负责集团旗下全线业务的数据安全与隐私保护。

团队介绍

美团点评集团安所有聚集国内多名尖端安全专家及诸多优秀技术人才,坚持打造“专业、运营和服务”的理念,共同为集团全线业务的高速发展保驾护航。团队致力于构建一套基于海量 IDC 环境下横跨网络层、虚拟化层、Server 软件层(内核态/用户态)、语言执行虚拟机层(JVM/Zend/JavaScript V8)、Web应用层、数据访问层(DAL)的基于大数据+机器学习的全自动安全事件感知系统并努力打造内置式安全架构和纵深防护体系,借助广阔平台及良机,深度发展,注重企业安全建设方面的实践,向安全团队最佳发展方向努力前行。

安利个小广告

美团点评集团安所有正在招募Web&二进制攻防、后台&系统开发、机器学习&算法等各路小伙伴,对在安全和工程技术领域有所追求的同窗来讲应该是一个很好的机会。

若是你想加入咱们,欢迎简历请发至邮箱zhaoyan17#meituan.com

具体职位信息可参考连接FreeBuf招聘站

美团点评 SRC主页美团点评安全应急响应中心

敬请关注咱们的企业安全系列文章——面向实操的大型互联网安全解决方案

《从Google白皮书看企业安全最佳实践》

《互联网企业安全之端口监控》

Coming Soon

《我的信息保护关键点识别与思考》

《美团点评千亿量级WAF是如何打造的》

《海量IDC下的分布式入侵感知系统设计与实现》

《大型互联网安全体系成熟度度量》

若是对咱们团队感兴趣,能够关注咱们的专栏

相关文章
相关标签/搜索