基于威胁情报的攻击组织画像与溯源

时间 2021-01-02 标签溯源威胁情报画像

一、溯源案例两则

（一）白象组织溯源

首先，我们来看溯源白象事件[1]的整体过程。此事件的主要点在样本侧。因为安天在这方面有一定储备，在一千个样本中提取PDB开发路径，进而关注到“neeru”等一些有特殊意义的用户名，我们将其单独提出来，直接在Facebook等一些社交网站进行追踪，其中大部分是典型xx国人名，但人名也会有很多通用的，不能单靠人名来确定现实中的人员，并且一些名字还是女性名字，通过分析猜测可能是作者的亲人或纯属个人喜好的名字。通过一段时间对这些虚拟ID的追踪，我们把追踪的重点放到“crxxx”上，因为在这个ID上我们发现了很多对应信息。

当你在Google搜索一些内容时，会有些缓存论坛发过的内容即使被删掉，在Google的缓存中仍能查到，有人在著名技术论坛发“寻找xx国最好的黑客”，就是“crxxx”这个人回帖问了一句“如何联系”，表明这个人确实对网络黑客技术感兴趣。我们又在逆向工程技术论坛发现这个人，该论坛包含更多个人信息（注册国籍），由以上几点确定这个人来自xx国，并且是网络安全技术相关人士，再从另外一个论坛继续深挖，看到他发过一些展现技术实力的帖子。我们从ID追溯原始邮箱，通过邮箱继续反追踪，查到使用此邮箱人员的真实姓名，通过人名找到相关演讲及完整履历信息、就职信息及做的项目等，这就是我们通过样本即可确定这个人员的信息的过程。ID确定了但怎么确定Visxxx Shaxxx就是crxxx样本作者？现在我们的样本集有十几个crxxx样本，它们的原始编译时间是2009年11月18日，因白象攻击的时间也在此时间段内，故可以认为这个时间戳是没被修改的，恰巧的是Visxxx Shaxxx在社交主页上的个人介绍显示，2009年5月—2010年6月期间在Freelancer（一个威客网站）上做了一些项目，其中一条是：为某些组织逆向分析专门开发的收集信息的木马和恶意软件。很明显这个人参与为威胁组织分析的工作，带ID样本是加密混淆的远控，通过这个信息我们猜测他可能通过逆向分析为这个组织研究反检测手段。

（二）“魔窟”（WannaCry）事件溯源[2]

下面介绍5•12爆发的“魔窟”事件，该事件在溯源上有几个信息点：

1、事件中样本使用的C2服务器都是暗网，追溯很困难；

2、代码无作者信息；

3、五月份“魔窟”事件使用了WannaCry2.0版本，其实在三月份就已出现WannaCry1.0版本；

4、Symantec发布了一篇报告指出“魔窟”和 Lazarus是同一个组织。

对比WannaCry1.0和2.0版本，这其中有些衍生文件的原始编译语言都是指向一个语言代码，这些语言代码都指向一个国家。以上两个案例作为引子，解读在网络攻击溯源中所采用的方法和需要的数据，进一步探讨如何将其纳入到当前的威胁情报中，从而对一些网络攻击组织进行画像和溯源。

二、组织画像描绘与情报支撑

当前威胁情报包括以下信息：样本扫描报告、动态分析报告、域名记录、IP反查、Whois、组织、事件归属。我对组织画像列了这个脑图，如攻击习惯、技术特点、目标偏好等，通过这些内容都可以确定组织画像，比如白象威胁情报溯源的案例关联HANGOVER，通过白象2和HANGOVER1两个域名指向两个不同IP，这两个IP又曾经被同一个域名解析过，这两个域名是同一个邮箱注册的，通过这种Whois关联溯源两起事件。右侧Xcode事件，详细内容可以看安天发布的Xcode事件报告，该事件的追踪也是通过Whois信息展开的追踪溯源。从而可以发现当前威胁溯源都是从Whois展开的，但高级攻击都是采用隐私保护或伪造注册信息，很难从这个点继续下去。

我认为溯源有两个方向。第一从网络侧溯源（定位主机）包括查找以下信息：

• C2

• Whois、DNS解析记录

• 网络连接数据

难点和问题：

• 跨国难追溯如攻击国内事件，要是C2服务器就很难查

• 隐私保护、暗网

第二从样本侧溯源（虚拟身份）包括查找以下信息：

• 样本采集、关联分析

• 代码细节、同源分析

• 时间、语言分析

难点和问题：

• 攻击者主动规避可溯源的点

• 无法验证证据的可信性

我们看下网络追踪溯源的四个层次划分（引自《网络攻击溯源》），

• 第一层：追踪溯源攻击主机

–IP追踪溯源

• 第二层：追踪溯源攻击控制主机

–因果链攻击源主机溯源

• 第三层：追踪溯源攻击者

–网络空间信息与物理世界关联追踪

• 第四层：追踪溯源攻击组织机构

–特定人与特定组织机构的关系

网络溯源需要的三方面情报支撑，第一要知道哪些IP连接这个C2，要知道C2服务器被哪些攻击者（IP）连接，这些数据相对来讲很难拿到；第二IP分配、域名解析、重新注册记录；第三DNS解析历史，追踪攻击者服务器的变化。

样本溯源的关键是关联出整个事件和溯源点分析，我们强调样本关联并不是简单的样本与C2的关联，进一步的细节关联追溯包括密钥、协议、算法、代码、PDB和衍生文件，只有这些才能关联到新的样本。例如，两个完全不同的远控程序，最开始认为这是两个不搭边的事件，将所有样本都分析完后发现两类不同RAT采用相同密码，另外我们还发现不同样本相同密钥，比如方程式与影子经纪人样本，前面讲的是关联方式，关联后要对里面继续分析，追踪以下样本侧的溯源点：

• 时区分析：白象就是通过时间戳定位国家所在时区。

• 语言分析（字符和原始编译语言）：WannaCry事件就是这样的。

• 编译用户ID：原始PDB信息。

• 域名注册信息：通过样本分析拿到的C2反查。

• 与已知组织关联：拿到虚拟ID需要跟现实中的身份进行关联，包括社工库、公开社交数据信息（历史、缓存等）。

三、虚假情报及元数据、IoC利用

最后讲下虚假情报及元数据、IoC利用会给分析者造成的错误引导和困扰。

前面讲我们通过语言可以分析攻击者所在的国家，这个例子office2007以上版本都是zip包里面XML格式的，作者等信息都是在XML里面可以修改的。还有可以伪装已披露组织信息注册域名，注册一个新的域名注册人信息填写某APT事件用过的注册人，这样伪造的域名被Threat Crowd关联，已经可以扰乱溯源分析。另外我们看，CIA有些工具可以对抗时区分析，可以修改访问时间、时间戳等，并且在某些语言代码可以插入某些语言，混乱语言判断。再者，原始编译信息也可被修改（已经被注意），文档原始编辑语言也可被伪造，二进制可修改伪造原始编辑语言包括RTF、DOC、DOCX。

最后申明一点，溯源数据只是客观证据，并不代表给某个人和国家定性了，无论在哪些层面包括我们现实的案件判决都需要人证、物证和口供，不能通过数字证据就定性了。另外一点想法，关于溯源技术细节不便于在公开报告中披露分享，因为这样攻击者也会看到而进行技术修改，这些技术我们就会集成到产品中，会在报告中披露我们溯源到哪些证据，但具体细节还是不宜公开披露分享。

[1] 安天：《白象的舞步——来自南亚次大陆的网络攻击》

http://www.antiy.com/response/WhiteElephant/WhiteElephant.html

[2] 安天：《安天针对勒索蠕虫“魔窟”（WannaCry）的深度分析报告》