基于大数据分析的安全管理平台技术研究及应用

【引言】这篇文章原载于内刊,现发布于此。内容有所删减。数据库

基于大数据分析的安全管理平台技术研究及应用安全

Research and Application of Big Data Analysis Based Security Management Platform网络

Last Modified By yepeng @ 2014-1-14架构

【内 容摘要】本文首先经过介绍大数据的原由,给出了大数据的定义和特征描述,并简要说明了当前大数据的研究概况。接下来,本文阐释了大数据分析技术,对大数据 在信息安全领域尤为是安全管理平台领域的应用作了深刻分析,并给出了基于大数据安全分析技术的安全管理平台的基本特征。最后,针对一个基于大数据安全分析 技术的新一代安全管理平台从5V角度进行了深刻介绍,并强调了安全分析师的关键做用。框架

无所不在的大数据
分布式

 

毫无疑问,咱们已经进入了大数据(Big Data)时代。人类的生产生活天天都在产生大量的数据,而且产生的速度愈来愈快。根据IDC和EMC的联合调查,到2020年全球数据总量将达到40ZB。工具

%E5%A4%A7%E6%95%B0%E6%8D%AE.jpg


什 么是大数据?大数据早就存在,只是一直没有足够的基础实施和技术来对这些数据进行有价值的挖据。随着存储成本的不断降低、以及分析技术的不断进步,尤为是 云计算的出现,很多公司已经发现了大数据的巨大价值:它们能揭示其余手段所看不到的新变化趋势,包括需求、供给和顾客习惯等等。好比,银行能够以此对本身 的客户有更深刻的了解,提供更有个性的定制化服务;银行和保险公司能够发现诈骗和骗保;零售企业更精确探知顾客需求变化,为不一样的细分客户群体提供更有针 对性的选择;制药企业能够以此为依据开发新药,详细追踪药物疗效,并监测潜在的反作用;安全公司则能够识别更具隐蔽性的攻击、入侵和违规。oop

%E7%A1%AC%E7%9B%98%E6%AF%8FGB%E7%9A%84%E


图:硬盘每GB的成本变化(1980-2009年)【来源:http://www.mkomo.com/cost-per-gigabyte性能

《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领将来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提升的前沿。世界经济论坛的报告认定大数据为新财富,价值堪比石油。大数据

不论从技术、仍是商业角度,大数据都成为当下绝对的热点。2013年,Gartner将大数据列为将来信息架构发展的10大趋势之首。Gartner预测将在2011年到2016年间累计创造2320亿美圆的产值。

大数据的定义


如 何定义大数据?《大数据的冲击》一书将大数据通俗定义为“用现有的通常技术难以管理的大量数据的集合”,并广义地定义为“一个综合性概念,它包括因具有 3V(海量/高速/多样,Volume / Variety/Velocity)特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及可以经过分析这些数据得到实用意义和观点的人 才和组织。”


Gartner将大数据定义为“海量、高速、多变的信息资产,须要对它进行经济的、创新性的信息处理从而得到超越以往 的洞察力、决策支持能力和处理的自动化”(high volume, velocity and/or variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation)。


大数据的基本特征

大数据的三个公认的基本特色是3V,即海量、高速和多变。海量是指数据容量愈来愈大;高速表示须要处理的速度和响应的时间愈来愈快,对系统的延时要求至关高;多变就要处理各类各样类型的数据,包括结构化的、半结构化的、甚至是非结构化的数据。


IBM在上述三个特色基础之上增长了一个V(Veracity),即“真实性”、“准确性”。IBM认为只有真实而准确的数据才能让对数据的管控和治理真正有意义。


此外,业界还有人总结出其它的大数据特色,例如低价值密度(Value)、存活性(Viability),等等。低价值密度是指大数据中真正有意义的信息含量比重低;存活性是指特定状况下的大数据具备很强的时效性。

大数据的研究概况

在IT领域,大数据也是最热门的技术领域之一。Gartner在2012年绘制的Hype Cycle曲线展现出了当前大数据技术欣欣向荣的一番景象。

Gartner%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9B


Gartner将大数据相关技术分为三个门类,分别是大数据支撑技术、大数据应用技术和针对新型数据进行分析的技术。

我国工程院院士邬贺铨将大数据技术从所面临的挑战的角度分为四个方面,分别是数据收集、数据存储、数据处理和数据可视化。

微软张亚勤将大数据划分为三个层次,分别是数据的管理、数据的扩充和数据的呈现。

IBM的Stephen Watt给出了一个大数据生态系统的模型,将大数据技术划分为7个部分,包括数据产生、数据存储、数据处理、数据分享、数据检索、数据分析、数据可视化,以下图:

%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%94%9F%E6%


大数据须要数据分析师

以上全部针对大数据的定义和特色的阐述,都缺乏一个重要的大数据组成要素——数据分析师(或者称为数据科学家,Data Scientist)。在当前技术条件下,大数据分析的结果要想得到最大程度的价值发挥须要借助专业的数据分析人员。


Natahn Yau首先提出“数据科学家就是可以从大型数据集中析取出数据,并提供某些可供非数据专家使用的东西的人”。《福布斯》杂志认为“数据科学家就是采用科学 方法、运用数据挖掘工具寻找新的数据洞察的工程师”。《哈佛商业评论》将数据科学家列为二十一世纪最性感的职业。


这代表,大数据技术要发挥做用仍然须要人的参与,而且是专业的数据分析师的参与。

大数据安全分析

大数据分析的定义

大数据技术的核心就是大数据分析(Big Data Analysis)。通常地,人们将大数据分析定义为一组可以高效存储和处理海量数据、并有效达成多种分析目标的工具及技术的集合。


Gartner 将大数据分析定义为追求显露模式检测和发散模式检测,以及强化对过去未链接资产的使用的实践和方法(the practices and technology used to pursue emerging and divergent pattern detection as well as enhance the use of previously disconnected information assets),意即一套针对大数据进行知识发现的方法。


通俗地讲,大数据分析技术就是大数据的收集、存储、分析和可视化的技术,是一套可以解决大数据的4V(海量、高速、多变、低密度)问题,分析出高价值的信息的工具集合。


大数据分析的基本技术支撑


从技术支撑架构的角度来看,大数据分析是一个软件技术框架(Framework),主要包括如下能力:


1) 可以处理特别巨大的数据集(Volume)
2) 提供极快的数据插入操做(Velocity)
3) 可以操做多种数据类型(Variety)
4) 要支持实时数据分析和历史数据分析
5) 提供多种数据分析方法/模型
6) 使用分布式并行处理机制(Volume & Velocity)


其 中,大数据分析基本的特征就是这个软件技术框架应该具备一个分布式开发框架。这个分布式开发框架能够是开源的Hadoop,或者其它具备类似分布式并行计 算能力的框架,可以实现Map/Reduce计算,可以实现分布式计算节点的统一调度和弹性部署。基于这个分布式开发框架,实现海量数据的分布式采集、分 布式存储、分布式分析计算。


大数据分析的另外一个技术支撑是海量数据的存储技术。面对海量的数据,传统的关系型数据库已然没法知足须要,须要进行改进或者革新。大数据分析系统的软件技术框架必然会使用某种分布式数据库技术或者NoSQL(非关系型数据库)技术。


此 外,一个实用的大数据分析系统通常都要同时具有实时数据分析与历史数据分析能力。要得到历史数据分析能力,一般就是借助分布式开发框架的 Map/Reduce批处理计算来实现。固然,有的大数据历史分析系统还具有交互式计算能力(例如Google Dremel),实现快速查询。而要得到实时数据分析能力,分布式开发框架及其Map/Reduce计算模型就显得力不从心了。这时候须要一个实时的流数 据处理引擎,一般是采用CEP(Complex Event Processing,复琐事件处理)或者ESP(Event Stream Processing,事件流处理)技术的流数据处理引擎。


综上所述,从开发者的角度来看,大数据分析的底层技术支撑包括三个:


1) 分布式计算框架(例如Hadoop,或者其余具备Map/Reduce机制的计算框架)
2) 分布式存储机制(例如分布式数据库、HDFS、NoSQL)
3) 流式计算框架(例如CEP、ESP)


从大数据分析到大数据安全分析

当 前网络与信息安全领域,正在面临多种挑战。一方面,企业和组织安全体系架构日趋复杂,各类类型的安全数据愈来愈多,传统的分析能力明显力不从心;另外一方 面,新型威胁的兴起,内控与合规的深刻,传统的分析方法存在诸多缺陷,愈来愈须要分析更多的安全信息、而且要更加快速的作出断定和响应。信息安全也面临大 数据带来的挑战。
安全数据的大数据化主要体如今如下三个方面:


1) 数据量愈来愈大:网络已经从千兆迈向了万兆,网络安全设备要分析的数据包数据量急剧上升。同时,随着NGFW的出现,安全网关要进行应用层协议的分析,分 析的数据量更是大增。与此同时,随着安全防护的纵深化,安全监测的内容不断细化,除了传统的攻击监测,还出现了合规监测、应用监测、用户行为监测、性能检 测、事务监测,等等,这些都意味着要监测和分析比以往更多的数据。此外,随着APT等新型威胁的兴起,全包捕获技术逐步应用,海量数据处理问题也日益凸 显。
2) 速度愈来愈快:对于网络设备而言,包处理和转发的速度须要更快;对于安管平台、事件分析平台而言,数据源的事件发送速率(EPS,Event per Second,事件数每秒)愈来愈快。
3) 种类愈来愈多:除了数据包、日志、资产数据,还加入了漏洞信息、配置信息、身份与访问信息、用户行为信息、应用信息、业务信息、外部情报信息等。
于 是,业界出现了将大数据分析技术应用于信息安全的技术——大数据安全分析 (Big Data Security Analysis,简称BDSA),也有人称作大安全数据分析(Big Security Data Analysis)。二者尽管表述有差别,但内涵一致。前者强调基于大数据技术的安全分析,分析安全问题;后者强调大数据分析的对象是安全数据。


在网络安全领域,大数据安全分析将包括如下几个应用领域:


1) 安全事件管理和安全管理平台:这将是大数据安全分析的核心应用,也被称做安全分析平台(Security Analytics Platform),后文将详述。
2) APT检测,包括全包捕获技术
3) 0day恶意代码分析,包括沙箱技术
4) 网络取证分析
5) 网络异常流量检测
6) 大规模用户行为分析
7) 安全情报分析
8) 信誉服务
9) 代码安全分析


2012 年3月,Gartner发表了一份题为《Information Security Is Becoming a Big Data Analytics Problem》的报告,表示信息安全问题正在变成一个大数据分析问题,大规模的安全数据须要被有效地关联、分析和挖掘,并预测将来将出现安全分析平台, 以及部分企业在将来五年将出现一个新的岗位——“安全分析师”或“安全数据分析师”。

%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%88%86%E6%

 

对 于大数据安全分析而言,最关键的不在于大数据自己,而在于对这些数据的分析方法。大数据安全分析能够用到大数据分析的全部普适性的方法和技术,但当应用到 网络安全领域的时候,还必须考虑到安全数据自身的特色和安全分析的目标,这样大数据安全分析的应用才更有价值。例如,在进行异常行为分析,或者恶意代码分 析和APT攻击分析的时候,分析模型才是最重要的。其次,才是考虑如何利用大数据分析技术(例如并行计算、实时计算、分布式计算)来实现这个分析模型。

 

基于大数据分析技术的安全管理平台

安全管理平台呼唤大数据分析

在全部网络安全领域中,大数据分析对安全管理平台(SOC平台)及安全信息与事件分析(SIEM)系统的影响最为深远。这也是与它们先天的大数据分析特质密切相关的。
安 全管理平台,有的也称做SOC(Security Operations Center,安全运营中心)平台,通常是指以资产为核心,以安全事件管理为关键流程,采用安全域划分的思想,创建一套实时的资产风险模型,协助管理员进 行事件分析、风险分析、预警管理和应急响应处理的集中安全管理系统。


安全管理平台的核心之一即是安全信息与事件管理,也称做 SIEM(Security Information and Event Management)系统。一般,SIEM为来自企业和组织中全部IT资源(包括网络、系统和应用)产生的安全信息(包括日志、告警等)进行统一的实时 监控、历史分析,对来自外部的入侵和内部的违规、误操做行为进行监控、审计分析、调查取证、出具各类报表报告,实现IT资源合规性管理的目标,同时提高企 业和组织的安全运营、威胁管理和应急响应能力。


下图显示了一个典型的SIEM系统的结构图:

SIEM%E7%B3%BB%E7%BB%9F%E7%9A%84%E7%BB%93


由图可知,通常的SIEM系统都具备安全事件(日志)的采集、范化、存储、分析、展现等几个过程,而这与大数据分析的收集、存储、分析和可视化过程是彻底相同的。所以,SIEM自然具备应用大数据分析技术的特质。


安全管理平台是在SIEM系统的基础上,对采集的数据进行了大规模的扩充,并增长了分析模型,实现了基于风险的资产和业务的集中安全管理。

安全管理平台的核心是多样化的安全要素信息采集与存储、多种安全分析与展现。而这与大数据分析的特征也是彻底吻合的。


当 前,安全管理平台的一个重要发展趋势就是采集的安全数据种类愈来愈多,不只包括传统的资产信息、事件信息,还归入了漏洞信息、性能信息、流量信息、配置信 息、业务信息等等。与此同时,安全数据的产生速率和总量也急速增加。大型企业愈来愈倾向于采用集中化的安全管理平台构建模式,单一管理平台就要管理全网的 安全信息,安全事件产生的速率达到上万EPS,甚至是上10万EPS,天天存储的事件量则达到上百GB,甚至是上TB。另外一方面,用户须要安全管理平台提 供更加精准的安全分析研判和问题定位,更加快速的安全应急响应与处置,对安全分析的准确性和分析结论价值度的要求愈来愈高。这一切都促使安全管理平台的技 术开发者求助于大数据分析技术。


大数据安全分析首选安全管理平台


SANS在2013年9月份发布的《安全分析调查》报告显示,客户进行大数据安全分析的时候,首选的是日志管理、SIEM等安全管理平台类系统。而且,超过60%的受访客户表示将来实现安全分析目标的首要投资对象是SIEM。

%E5%AE%89%E5%85%A8%E5%88%86%E6%9E%90.jpg


因而可知,目前来讲,在全部大数据安全分析的应用领域中,SIEM及其安全管理平台是最重要的。


应该说,大数据分析技术并不能保证安全管理平台可以应对上述挑战,但却给安全管理平台应对这些挑战提供了全新的技术思路和发展模式。当安全管理平台赶上大数据分析,让用户和开发者看到了安全管理平台将来技术发展的一个全新方向。


基于大数据安全分析技术的安全管理平台基本特征


基于大数据安全分析技术的安全管理平台具备如下显著特征:


1) Velocity:高速日志采集能力、高速事件分析能力;
2) Variety:支持多种日志源和日志类型,并支持对半结构化(例如原始数据报文、邮件、WEB请求与响应)和非结构化信息(例如可疑代码)的采集,具有异构数据间的关联分析(即情境关联)能力;
3) Volume:海量的事件存储能力、海量数据分析能力;
4) valuablity:分析研判的结果是真正有价值的信息、值得去关注的信息,是能够用于辅助决策的信息。这就意味着须要有效的数据分析方法和工具;
5) Visualization:安全分析结果的可视化呈现能力。


必须至少同时知足上述5V,才能将一个安全管理平台称为基于大数据安全分析技术的安全管理平台。

基于大数据分析的新一代安全管理平台介绍

【略】

小结


大 数据时代已经到来,咱们创造的大数据正在改变人类生产生活的各个方面。信息与网络安全做为保障IT数字资产的关键能力也正在被大数据所从新塑造。安全管理 平台,做为安全保障体系中位于顶层的技术支撑平台,自然具备与大数据结合的特质。基于大数据安全分析技术的安全管理平台正在成为将来安全管理平台发展的重 要技术方向。


同时,咱们必须看到,不论安全管理平台的技术如何发展,如何与大数据结合,安全管理平台所要解决的客户根本性问题,以及与客户业务融合的趋势依然未变。对大数据的应用依然要服务于解决客户的实际安全管理问题这个根本目标。


目前来看,大数据分析技术有助于咱们更好地去解决安全管理过程当中的部分问题,但并不能解决全部的问题,同时还可能引入了新的问题。这是安全管理平台的开发者、服务提供者和客户都须要不断摸索的。


此 外,不论安全管理平台技术如何发展,大数据分析给咱们带来了多大程度的信息价值度提高,安全分析师始终是不可或缺的。正如大数据须要数据分析师,大数据安 全更须要安全分析师。安全,本质上是人与人之间的对抗,不论安全分析的自动化技术如何演进,相互之间进行对抗的,始终是坐在屏幕前的人。

 
转载:http://yepeng.blog.51cto.com/3101105/1351676
相关文章
相关标签/搜索