AI碰见SIEM,白山ATD革新企业安全大脑

时间 2019-12-09

原文原文链接

做者简介：算法

丛磊，白山合伙人兼工程副总裁
2016年加入白山，主要负责云聚合产品的研发管理和云链产品体系构建等。
2006年至2015年就任于新浪，原SAE（SinaAppEngine）创始人，曾任总负责人兼首席架构师，2010年起，带领新浪云计算团队从事云相关领域的技术研发工做。
现任工信部可信云服务认证评委。数据库

摘要后端

SIEM是企业安全的核心中枢，负责收集汇总全部的数据，并结合威胁情报对危险进行准确的判断和预警。但传统的SIEM过分依靠人工定制安全策略，不只仅增长了人力成本，并且整个SIEM的识别准确率和使用效果也都大打折扣。而目前附带AI功能的SIEM系统也只是把AI当成算法插件做为集成，没法在没有安全人员介入的状况下独立的智能工做。安全

本文将从传统SIEM组件构成入手，介绍AI对于下一代SIEM的适用性和重要性，并重点阐述当前主流SIEM&AI平台和全新一代SIEM@AI平台的区别；随后将结合实际案例深刻讨论SIEM@AI的两个核心技术原理：数据分析和数据关联；在最后的篇幅，文章会探讨SIEM@AI的发展和研究方向。服务器

1、SIEM简史

SIEM是Security Information Event Management的缩写，又名安全信息事件管理平台，做为企业的安全大脑，它能够为企业提供安全数据的收集、整合、分析、关联、处置和展示等功能，是企业业务安全运营的核心和基础。网络

早在10年前，SIEM的概念就已经被提出。SIEM做为企业内部涉及安全的日志管理平台，提供日志的采集、存储、分析查询功能。通过十多年的发展，现在SIEM的产品形态已获得丰富拓展，包括支持多维数据源输入、威胁情报中心（Threat Intelligence）、策略脚本库（Playbook）等，同时外部威胁数据的共享和获取也使得SIEM系统不断被完善。架构

图1：SIEM市场规模预测（来自Gartner 2017年报告）负载均衡

SIEM在美国一直保持着较快发展，根据Gartner相关市场报告，SIEM在全球（主要是美国）最近每一年都保持着10%的增加速度，预计在2020年市场规模可达200亿人民币。然而在中国，SIEM还处于比较初级的阶段，不少企业对自身安全问题并无系统性的管理。2017年整个中国市场只有3.17亿人民币的规模，这个数字相比中国经济对全球经济的占比是不相符的。不过可喜的是，SIEM中国市场最近每一年都保持着近20%的增加速度，说明愈来愈多的中国企业已经意识到了SIEM的重要性。框架

但并不是全部企业都须要SIEM，处于初期发展阶段的企业数据流和业务量单一，面临的安全威胁较少，安全设备和软件的需求也相对较小，依靠独立的安全产品便可知足基本需求。当企业发展到中大型规模时，业务线增多，内外网安全环境变得复杂，同时前期使用的安全产品也达到了必定数量，这时就有必要接入SIEM来实现统一的安全运营管理。运维

2、解构SIEM

图2：SIEM总体架构图

SIEM平台的主要架构由5个层次组成：

1.采集层：系统数据入口。SIEM大多支持多种数据输入，这些数据历来源划分，包括终端用户设备、网络设备、服务器、存储设备等；从OSI模型划分，包括了数据链路层、网络层、传输层、应用层的网络流量；从系统角色划分，包括不一样的业务系统、中间件系统、负载均衡系统等。这些数据或以推送的方式或以拉取的方式向SIEM平台输送，供SIEM进行后续的分析计算。
采集层使用的技术主要分为两类：“侵入式”和“无侵入式”。“侵入式”通常采用部署Agent程序，或者用户在自身代码逻辑中添加程序探针等方式采集数据；“无侵入式”通常则采用旁路镜像流量或者输入日志等方式采集数据。两种模式各有优缺点，“侵入式”有利于企业增长定制化功能，并结合SIEM平台的多维特性深刻贴合业务，但弊端在于外挂式的Agent一旦不稳定，就会影响用户自身业务，甚至致使系统宕机，我本身就遇到过好几个客户向我抱怨自身的服务被厂商的嵌入SDK搞的不稳定。“无侵入式”则能够彻底避免对业务系统的影响，一方面提高系统稳定性，另外一方面保护系统数据安全。在技术成熟的状况下，对用户来讲，“无入侵式”采集方式显然更加友好。

2.存储层：采集后的数据除了供给后面的计算分析外，还会进行存储。存储层有两个目的：一是对原始采集数据进行存储，二是对计算分析完成的结果进行存储。
存储可选择的技术栈通常包括数据管道（中间数据传输），热存储（存储经常使用数据查询、更新），冷存储（存储不经常使用的数据）。严格说，数据管道不算是存储，但在实际上为了防范后端数据丢失或堆积，通常也会将通过管道的数据进行临时存储，好比互联网公司最经常使用的Kafka队列就是将中间数据落地在磁盘上。
冷热分级存储的目的在于，保证热数据操做速度的同时，在必定程度上下降企业存储成本。对于冷存储而言，比性能更大的技术挑战是可靠性和可用性，支持多IDC、甚至多Zone的大型分布式存储技术系统是企业首选；而对于热存储，更关注的是读写速度以及如何被计算单元使用，因此通常会选择带有Sharding能力的分布式存储。

3.计算层：SIEM平台的核心。分析准不许、全不全、快不快都依赖这层的计算单元。目前主流的计算模式包括实时计算平台和离线计算平台。
海量数据的离线计算平台起源较早，早在10多年前就出如今Google的MapReduce系统中，MapReduce底层先利用GFS将海量数据分片存储，解决了单点设备的IO吞吐瓶颈。每一个计算节点再依赖调度器或执行Map任务或执行Reduce任务，不断将海量计算任务分解、归并，最终输出指望的计算结果。实时计算平台算是海量数据计算的后起之秀，包括了以Storm为表明的实时流处理和以Spark steaming为表明的微批次处理两种技术实现方式。
在实时性上，实时流处理模式的处理速度更快，但从实际的使用经验来看，这种模式也要求更高的技术运维经验。不管是实时计算平台仍是离线计算平台，都要求支持任务的Partition，这样能够在某些主机宕机的状况下，仍然保证计算顺利完成。
计算平台最核心的并非计算框架，而是算法部分的计算逻辑。计算逻辑对流量、用户请求、系统交互信息等不一样类型的数据进行计算。目前绝大部分SIEM平台的实现都是基于规则引擎，如Drools，这就须要依赖使用者制定大量的规则，一旦使用者制定的规则有错误或者有遗漏，就会形成错判漏判。

4.输出层：计算层分析的结果最终传导至输出层。传统SIEM的输出方式有不少，包括展示层面、报表层面、报警通知层面、实时阻断层面等，企业能够根据不一样业务部门的不一样需求选择合适的输出方式。SIEM的输出结果不只仅和安所有门或业务部门有关，还可能涉及到其余业务单元，好比资产管理、组织管理等。
从事件处理的生命周期来看，处理方式能够分红自动方式和手动方式，自动方式能够对计算层分析出的安全威胁事件进行自动处理，包括通知、预警、上报甚至阻断，而对于不能自动处理的状况，就须要手动方式，这时能够借助工单系统进行后续处理跟踪，最终保证安全威胁被处理。

5.情报中心：情报中心为SIEM计算层提供额外的数据支撑，从而提升威胁和异常行为识别的准确率。情报中心的数据来源通常有三种渠道，第一种是来自公开输出的威胁情报，如X-Force Exchange、ThreatBook、Shodan等；第二种是来自自身搜集的威胁情报数据，如经过蜜罐采集、API调取或者交换购买等方式取得有价值的威胁情报；第三种就是来自跟业务自身相关的辅助数据，如用户注册信息，企业资产信息、组织信息等等，这些信息看似和安全威胁关联不大，可是当多种数据联合分析时，就能够为最终的结果输出提供有效参考。
情报中心数据的内容包含多种形式，经常使用的如IP库、设备指纹库、黑卡库、漏洞库等。使用或依赖情报中心要注意情报的实时性，由于目前云化和共（zu）享（yong）经济的普及，不少资源并非独占的，而是在必定时间后就被回收，并交由其余用途，这样的话若是情报更新不及时就会拔苗助长。

3、SIEM、态势感知和SOC安全运营中心

SIEM、态势感知和SOC安全运营中心有着紧密关系。其中态势感知范围很广，主要聚焦在感知过去、理解如今、预测将来三个层面，这和SIEM的采集并计算分析给出结果进而感知预测是高度吻合的。一些企业发布的态势感知系统其实就是简化的SIEM或者是SIEM的超集。SOC安全运营中心则在SIEM的基础上突出了人的做用，强调了人和平台以及软件之间的联动，经过相似Ticket系统的任务追踪机制，配合SIEM提供的数据分析结果，用人对业务和资产进行全面的安全管理。

总之，SIEM对于企业的总体安全分析是很是重要的，经过SIEM能够打通多种数据流的信息，造成对于安全威胁的事前、事中、过后处理，最终保证企业的总体资产及业务安全。

4、AI赶上SIEM

若是说IT技术有风口的话，那么AI无疑是最前沿而且最落地的，AI总体发展分为三个阶段：

1.识别阶段，解决What的问题，这是最基础的AI问题。目前的AI经过大量有监督学习，提取标注样本的表象或内在特征，造成一个或多个分类器，分类器对样本数据特征进行学习训练，最终对新的输入进行准确识别，从而解决什么是什么的问题。好比什么是小狗、什么是色情图片等。

典型的应用包括验证码识别、语音识别、垃圾邮件识别等。人们熟知的AlphaGo也是识别问题，深度学习经过对成千上万个已经标注好输赢的棋局进行训练，利用头几层的神经元网络，越过表象特征挖掘出人都很难理解的深层次特征，造成了对于棋局的“感应”能力，从而对某个棋局是更有利于黑方仍是白方作出判断，再结合αβ search或MCTS等算法，给出下一步走法的最优解。应该说识别是应用AI最成熟的领域。

2.理解阶段，解决Why的问题，这是在识别的基础上进一步的AI问题。好比一段文字想表达的情感是什么？一个电影讲述的故事是什么？一段语音的问题是问什么等等。最典型的应用场景就是人机对话，其基础是理解人说的是什么，想表达什么意思。

理解问题最原始的解决办法就是构造各类语义模板，用来作情感标注，变相把理解问题转换成识别问题。但随着深度学习的普及，已经出现了不少新的技术以突破模板定义的限制进而试图真正理解内在含义。可是经过苹果手机Siri的例子就能够看出，目前的AI对于理解问题的能力还远远没有到成熟的阶段。

3.反馈阶段，解决How的问题。How本质是在识别的基础上，理解了对方的信息内容后，作出恰当的反馈。反馈是AI的最高境界，是实现真正人机互动的关键，有了反馈互动的能力，AI就能够像真人同样在一些领域部分代替人类，甚至彻底代替人类。但很明显，目前AI的发展阶段离这个目标还相距甚远。

从AI的三个发展阶段看，目前AI还主要处于“识别”和“理解”的初期，离真正的“代替人类”还有很长远的路要走，当下真正已经成熟使用的技术基本集中在“识别”问题。同时咱们观察安全领域就会发现，安全领域里的问题偏偏就是很是典型的"识别"问题，经过SIEM里的各类输入数据进行分析，只须要识别这个事件或这个用户是否存在威胁便可，整个过程无关理解也无关反馈。

图3：主流SIEM系统AI工具示例

应该看到，目前的新型SIEM已经集成了AI的能力，好比有的SIEM平台，集成了经常使用的AI算法，好比异常检测、线性预测，这些算法以插件的方式集成进平台，用户能够基于这些算法分析自身的数据。

5、从SIEM&AI到SIEM@AI

目前主流SIEM平台的最大缺点是：他们仅仅是SIEM&AI（以AI做为工具），把AI仅仅当成是SIEM平台的一个附属插件或工具，而没有把整个SIEM平台构建在AI技术上面。这样带来的影响是，企业使用SIEM时须要花费大量的时间、精力、人力去学习、配置和使用这些AI工具，另外，SIEM&AI还要求企业具备必定的特征工程经验，而这对于不少企业而言是不现实的。我见过不少企业客户，当我问到他们使用SIEM&AI类产品的的AI部分的体验时，都是一脸茫然，仿佛花了大价钱买了高级玩具却没玩起来。

而企业真正须要的是：SIEM@AI（以AI做为平台），无需不少成本甚至彻底无需学习成本，便可使用AI技术从海量的输入数据流信息中发掘威胁事件，并自动使用AI技术对不一样业务、不一样维度的数据进行智能关联，创建内在联系，并最终自动的对威胁事件进行处置处理。

6、AI赋能数据分析

数据标注难题

如前所述，在安全领域，大部分问题都是“识别”问题，从数据分析的角度，能够将问题最终归为分类问题。经过创建算法模型，预测进行中的事件甚至还未到来的事件是否存在威胁，也就是把它们分红有威胁和无威胁两类。可是安全领域在使用AI时存在一个巨大的困难，即样本标注难。对于经典的图片识别问题，企业可使用较低的人力成本批量制做标注样本，而后送入深度神经网络训练。可是安全问题则不一样，从大量杂乱的信息数据中识别是否存在威胁、是何种威胁，须要专业的安全人员，甚至多个部门跨部门协做才能完成。

无监督学习化解标注难题

标注难问题可解吗？答案是确定的，那就是利用无监督学习。无监督学习能够将正常事件聚在一块儿，同时也会将异常事件聚在一块儿，从而方便算法识别出异常威胁。而整个威胁识别的过程无需标注样本，也大大下降了人工参与的程度。

无监督学习是机器学习中一个很是重要的分支，不一样于有监督学习须要依赖大量标注好的样本才能让分类器进行学习，无监督学习能够在没有任何标注样本的状况下由分类器自主学习。只不过目前市场上绝大多数产品都集中在有监督学习上，致使无监督被长期忽略了。

图4：聚类示意图

白山ATD（Advanced Threat Detection，深度威胁识别，新一代的SIEM@AI系统）产品大量使用了无监督学习技术来进行威胁事件识别，无监督学习的本质是将数据进行聚类，而根据聚类实现的过程不一样又主要分为三种算法：

距离聚类
核密度聚类
层次聚类

距离聚类

距离聚类是最多见的聚类算法，本质是EM算法，经过对于距离中心点的不断迭代修正，最终将全部事件进行归类，那么有威胁的事件天然会被归到一簇或者几簇，而正常的事件也会由于更类似的距离而归到一簇或者几簇。固然这是理想状况，在现实场景中实施算法还须要作不少的加工工做。距离聚类的最大困难一是距离计算方式的选择，二是聚类簇数量的选择。

距离计算选择主要包含两个方面：

如何规定事件边界：繁杂的海量数据输入中，一个事件的边界从哪里开始，到哪里结束，包含哪些数据。这须要按照不一样的应用场景作不一样的处理，常见的方式有按照时间段，也有按照事件切分点。
如何制定事件间距离：事件有不少不一样的描述维度，对于最多见的维度——时间、地点而言，记录时间有多是UNIX时间戳，记录地点有能是GEO IP或者MAC地址，那么如何把UNIX时间戳和IP地址放在一个向量空间模型里比较距离就是一个问题了。这里ATD采用的Z-Score算法进行距离映射，使得映射后的数据具备彻底的正太分布特征。

簇的数量选择对于无监督学习的算法效果相当重要，一旦初始簇的数量选择不合适，就有可能致使聚类的结果彻底错误。

图5：聚类示意图

如上图，红色异常点是咱们须要识别出来的，显然聚类簇数为2的效果比聚类簇数为3的效果要好，由于3将正常的事件点也分为了两类。ATD使用一系列算法在聚类前预判准确的聚类簇数量，最好的状况下能够提高200%的聚类效果。

核密度聚类

核密度聚类不须要事先指定聚类的簇数，而是根据初始的密度值进行聚类选择，全部与核距离过远的事件都会被标记为离群点，这些离群点从安全角度看可能就是威胁事件。

密度聚类的前提是须要选择合适的初始密度值，若是选择不当将致使离群点错误，最终使威胁事件误判。另外一方面，控制离群点的数量和纯度对最终的识别效果也很重要，由于在实际生产环境中，颇有可能出现大量的离散点其实也是正常的事件。因此有时候也须要在第一次聚类后，调整事件的特征选择算法，针对离群点进行二次聚类。

层次聚类

层次聚类的原理是先将全部事件当作树的叶子节点，每一个叶子节点自成一类，而后根据相互的距离，自下而上逐层合并，最终造成一个根。

层次聚类能够根据须要，按照最终聚类的簇数进行层层归并，最终聚成的小簇咱们能够认为是某种离群点，即有多是一些威胁事件。能够看出，层次聚类的核心仍然是距离计算模型的选择。

智能分析风险

利用无监督学习，能够在无需标注样本和无人工介入的前提下，发现不少异常的威胁风险。下图是一个被ATD系统识别出的实际例子：

图6：ATD无监督学习示例结果

这是一个ATD对企业电商业务无监督学习的实际案例，案例显示大部分用户的访问路径集中在
登陆页=》受权页=》订单页的访问趋势，经过无监督学习就能够将正经常使用户的行为聚在一块儿。反观刷单的恶意行为则会绕过受权页直接访问订单页，这样在无监督学习过程当中就天然造成了离群点，这样咱们就能够帮助企业识别出刷单的威胁风险。

7、AI赋能数据关联

横向关联

AI威胁数据分析，分红纵向的数据分析和横向的数据关联：

图7：数据的纵向分析和横向关联

纵向分析指的是对于事件群体按照时间轴学习规律，以此进行对于已有的威胁识别和对于将来的态势感知。横向关联指对空间上不直接相关的不一样事件群体，经过算法挖掘它们的深层次关联关系，最终造成更准确的威胁识别或者便于对威胁事件进行更全面的回溯。

对于大多数SIEM产品，只要附带AI工具功能的，即可以完成诸如异常点检查、趋势预测等任务（尽管他们当中绝大多数都是有监督学习，这也就意味着客户须要提供大量标注好的威胁事件和正常事件的样本），不过这些任务都是纵向分析，并非横向关联。所以，对于新一代SIEM@AI系统来讲，比起无监督学习进行纵向分析，更有挑战的任务是在表层不相关的海量数据中创建潜在关联，从而实现真正的深度威胁识别。

事件的相关运算

常见的事件关联场景基本上能够分为这两种：

A，某一做用域（如某一时间段内）的事件集合，挖掘事件之间的关联关系，如：

上图就是两个彻底由不一样系通通计输出的事件，咱们须要用算法分析是否存在关联，这个过程实际能够转换为：按行分析相关性。

B，同一类型事件，挖掘构成的因素是否存在关联关系，如：

上图所示，所有“ERP系统不能访问”的事件中，各个因素间是否存在关联，这个过程实际能够转换为：按列分析相关性。

由此能够看出，不管是不一样事件的关联分析，仍是同一类事件的内在因素关联，本质能够转换为矩阵的行相关或列相关。对于列相关，经过对于矩阵转置运算，也能够转换为行相关，即：

咱们只须要分析K1和K2是否在某种程度存在相关。

对于这种关联分析，最多见的方式是用相似KNN算法中，经过计算两个事件元素的夹角来判断相关性：
θ=acos(K1⋅K2/(|K1||K2|))

当夹角越小时，表示两个事件越相关，而当夹角互相垂直（即正交）时，表示两个事件彻底无关。
固然，咱们还可使用其余的方式计算相关性，好比Jaccard距离：
J(K1,K2)=|K1⋂K2|/|K1⋃K2|

当J值越大时，表示两个事件越相关，反之则越不相关。

夹角距离计算方式更适用数值型的事件向量，而Jaccard距离计算方式更适合枚举字符串类型的事件向量。固然事实上，咱们能够把任何字符串类型的事件，经过word2vec或者simhash等算法方式转变为数值型事件向量，而后再进行夹角计算。

啤酒与尿布

说到数据关联，不得不提的经典故事就是“啤酒与尿布”了，沃尔玛在作数据关联分析时发现啤酒和尿布在购物单上是相关的，这是怎么回事？原来妻子常常会嘱咐丈夫下班之后要为孩子买尿布。而丈夫在买完尿布以后又要顺手买回本身爱喝的啤酒，所以啤酒和尿布的销售行为上具备相关性。

从数据关联算法复杂性的角度看，啤酒和尿布的关联属于比较简单也相对直接一些的关联，Apriori算法就是解决这个问题的简单可实现的算法之一。Apriori算法经过不断的筛选频繁项而且不断的产生新关联规则的方式，最终获得关联性最强的事件元素。

图8：Apriori算法示意图

深刻Apriori算法的过程就会发现，其实Apriori整个计算过程和计算事件间的Jaccard距离十分相似，本质都是比较两个事件的类似因素后进行筛选。不过Apriori算法在实现上比两两比较效率更高，由于在其中有剪枝缩小范围的过程。

更隐晦的事件关联

其实，在ATD给客户服务的实际应用场景中，上文提到的“啤酒，尿布”还都算是比较简单的事件关联模型。更为复杂的是，如何发现从人的感知认识角度看并非那么直接的关联关系。好比空气的雾霾指数和城市用电量的关系，从人的感知角度，这两个并非特别的直接相关。但当咱们在两个事件中引入一个桥梁，即室内人数占比，就会发现这样的几率关系：
P（用电量/雾霾）=>P（室内人数增长/雾霾）* P（用电量增长/室内人口增长），其中P（A/B）表示B事件发生状况下发生A事件的几率

若是能够列举出雾霾致使的全部核心事件，就可使用全几率公式推导出雾霾和用电量的关系（因此这里我并无使用等号=而是使用了=>）。

从威胁识别的角度，经过这种中间的桥梁事件，同理也能够构建出两个看似不相关的事件之间的关系。好比在咱们给某家电企业部署的ATD运行中，就发现了一次疑似的CC攻击实际是和后端某业务线数据库变动操做有关：
P（疑似CC攻击/业务线数据库变动）=>P（疑似CC攻击/接口访问飙升） P（接口访问飙升/504占比） P（504占比/请求阻塞）P（请求阻塞/数据库阻塞）P（数据库阻塞/数据库变动）

解决这种复杂隐晦的事件关联的前提是首先要把全部信息（无论认为是否相关）都收集进来（这也是文章开始阶段提到的SIEM的采集层须要解决的），尽量多的采集各类数据，由于只有采集到数据才有可能创建关联。当海量的数据采集进来后，咱们每每在作下一步相关分析时会发现一个难题，即：由于数据太多，致使分析的性能很低。若是威胁事件分析的不及时，极可能会影响后续的处理，因此整个分析过程的低延迟相当重要。

数据降维

如何保证处理速度呢？那就须要对数据进行降维分解，从而下降计算空间，这里面有两种作法：

有监督降维

若是企业自己有大量标注数据，那就可使用有监督降维，最经典的有监督降维就是PCA（Principal Component Analysis，主成分分析），其原理是选择一种最优的数据投射方式，从高维空间投射到低维空间，而且保证投射后有较好的区分度。

无监督降维

在没有大量标注数据的状况下就可使用无监督降维，这也正是ATD所使用的数据降维方式。有不少种算法均可以进行无监督降维，ATD最先使用的是LDA（Latent Dirichlet Allocation）主题发现模型进行降维，经过LDA先将数据按照主题相关性聚类，下降每一类中数据的数量和维度，从而减小后续计算的复杂度。

这里，我想介绍另一种数据降维的方式，也是咱们目前正在尝试的——SVD（Singular Value Decomposition）分解。

图9：对威胁事件进行SVD分解

上图所示，咱们先对于一个海量的事件集进行了SVD分解，分解的结果是三个矩阵的乘积，而后经过对于中间Σ矩阵的元素进行筛选，就能够下降整个事件集群的复杂度，同时找到同一个隐含主题下的关联事件和关联因素。隐含主题的数量本质上就是事件矩阵的秩。

从更深的角度讲，不管是LDA仍是SVD，其实本质都是去寻找事件矩阵的秩，利用秩找到构成事件的最核心因素，好比对于一个入侵事件，可能的核心因素是用户的属性（内/外部用户、是否受权、相应职级等等）、入侵时间、侵入的业务类型，而其余的因素，诸如员工的年龄、当时的服务器负载等等其余因素有可能就会被算法自动识别为非关键因素而忽略掉。经过这种方式就能够在茫茫信息中发现关键因素，从而为后面的事件关联大大下降运算量。

总之，数据的横向关联是一个极富挑战性的任务，其中最重要的先决条件是经过SIEM的采集层收集足够的数据，其次是选择合适的算法对数据进行加工处理，最后是经过AI算法对数据进行关联分析。在ATD客户的实际使用中，咱们成功地发现了外网的接口攻击和内网数据库变动之间的关系，也发现了某邮件系统的Exchange日志事件和内网SSH事件之间的关系。这种关联分析不只仅对于已知威胁的回溯有帮助，也对将来的安全态势感知有重大意义。

8、关于将来方向的探究

从SIEM&AI模式到SIEM@AI模式，咱们再也不将AI当作是插件或者工具，而是将系统运行在一个彻底由AI驱动的智能平台上。在这个平台上，咱们无需标注数据，无需大量人工介入，也无需定制规则，而是经过以无监督学习为主导的机器学习算法自动对异常威胁事件进行识别，自动的为各个复琐事件创建内在关联，提升识别的准确率和召回率的同时，解放安全工程师的人力并提升其效率，最终实现对于企业外网、业务、内网的三层智能防护。

白山ATD产品就是一套全新的SIEM@AI系统，咱们过去花费了大量时间和精力去研发基于无监督学习的AI算法来代替目前的传统企业安全产品，这种模式的有效性在企业实践中已经获得了验证。将来，ATD还会在两个方向作进一步探索研究：

1.经过主动学习引入人的参与

引入无监督学习的目的是不依赖标注的样本，由于在安全领域，标注样本的获取成本很是大，可是这并不表明能够彻底不依靠人工。在可预见的时间范围内，有经验的安全专家对威胁风险的识别、对于算法的修正以及对于整个AI系统的鲁棒性维护都是很是重要的。可是，安全专家的时间精力毕竟有限，如何在准确全面识别安全威胁的前提下，下降安全专家的时间成本就显得十分关键。

对此，咱们引入主动学习算法，它是一种特殊的半监督学习，依靠安全专家对少许的AI识别出的结果进行人工校验，从而不断对原有算法进行微调，直到最终收敛。主动学习里有两个因素很是重要，一是如何挑选供给人工校验的识别结果，二是对于识别结果的纠正如何反馈到算法模型中。经过主动学习，咱们就能够构建不断学习、不断演变的SIEM系统，进而随着与人的磨合，系统会变得愈来愈智能，愈来愈准确。

2.经过深度学习识别非直观威胁

有些威胁或者异常自己不具有直观表述性，甚至不能被向量化、离散化，最直接的例子就是加密流量。加密后的流量自己是人不可表述的，只是一层二进制输入流。还有些安全事件因为关联业务太多，很难用语言来表述为何当初这个问题被断定为异常。对于这些问题，均可以尝试使用深度学习的算法来解决，不过深度学习要求有大量的标注样本，只有在这个前提下，才能保证算法的效果。这就要求企业在平时的SIEM系统运行中，就不断增长对于威胁事件断定的积累，当数据积累到必定程度后，就可使用深度学习算法进行分析。

AI做为安全领域的颠覆性技术，与SIEM的结合将构建一个彻底基于AI的、充分智能的、低人工甚至无需人工介入的新一代SIEM@AI平台，这将改变目前安全产品依靠策略设定的固有模式，成为新一代企业安全大脑。