Cybercrime in the Deep Web

左懒 · 2015/12/11 13:57javascript

0x00 序言


深网(Deep Web)覆盖的内容一应俱全,其中包括有动态网页,已屏蔽网站(须要你回答问题或填写验证码进行访问),我的网站(须要登陆凭证才能进行访问),非HTML/contextual/script内容和受限访问网络等等。但因为各类缘由,Google等搜索引擎没法索引到暗网的内容。php

诸如.BIT域名这一类受限访问的网站所注册的DNS(域名服务系统)根服务器不受ICANN(互联网名称与数字地址分配机构)管理。这些网站运行在非标准顶级域名的标准DNS服务器当中。想要访问这些地下网络(Darknets)须要经过Tor这类软件来进行访问。而这些地下网络活动是组成深网大部分共同的利益的基础。前端

深网的用途java

聪明人在网上购买毒品的时候是不会在普通浏览器输入这些敏感的关键字的。所以,他须要一种不公开的IP地址和物理地址的匿名上网方式进行非法活动。一样的,毒品的卖家也不想在网上开店后被人查出具体位置。若是注册的域名或网站的IP地址是真实存在,那么很容易就会被查水表。git

除了购买毒品的需求之外还有其它不少缘由须要使用到匿名上网。好比:有人想要从政府的监控中跟他人进行秘密通信,知情人想要向记者透露爆炸性新闻但不想暴露本身的身份,某些政治制度严格的国家的不一样政见人士想要安全地向全世界告知他们国家正在发生什么事情。这些缘由都导致他们用到深网的匿名功能。web

另外,那些公众人物想密谋暗杀他人须要保证自身不会留下什么尾巴。其它须要保持匿名的非法服务还有相似贩卖非法护照和信用卡。一样,那些要泄露他人的私人信息的猥琐佬也要经过匿名的方式保证自身安全。算法

表网 VS 深网windows

讨论深网的时候一个不得不说的概念就是“表网(Clear Web)”。它与深网彻底至关,可以被传统的搜索引擎索引,能够经过无需任何特殊配置的标准Web浏览器浏览Internet。这种称之为“可搜索互联网(searchable Internet)”即是表网。浏览器

暗网 VS 深网sass

不少人误解暗网(Dark Web)与深网(Deep Web)两个概念,甚至一些研究人员把它们当成等价关系。可是!!暗网不是深网!!它仅仅只是深网的一部分。暗网依赖于地下网络。在暗网,二者之间的通信网络是受信的。Tor的“无形的互联网”项目(Invisible Internet Project(I2P))即是一个暗网系统的例子。

0x01 深网分析器


深网分析器(DeWA)是为了追查恶意软件的做者,探索新的恶意威胁,提取深网中有意义的数据,搜查新的恶意软件活动等目标而设计的。

深网分析器包含五个部分:

  1. 数据收集模块,负责从多个来源中搜索和保存新的URL。
  2. 通用网关,解决那些私人DNS地址,并容许用户像使用Tor和I2P这些软件同样去访问隐藏的资源。
  3. 页面侦查模块,负责爬取新网址。
  4. 数据富集分析模块,整合从其它源的侦查信息。
  5. 存储索引模块,让数据方便进一步分析。
  6. 可视化分析工具。

System Overview

System Overview

数据分析模块

深网分析器的第一个模块是数据收集模块,数据收集模块经过下面的主站爬取新的URL:

  • TOR和I2P隐藏的服务主机
  • Freenet资源定位器
  • .bit域名
  • 非标准TLD(顶级域名)的其它域名,从已知的代理域名注册商获取顶级域名列表

咱们的监测系统的数据基于:

  • 用户数据,检查HTTP连接到隐藏的服务或非标准域名
  • 相似Pastebin的网站,检查文本中包含深网网址的片断
  • 公众论坛(reddit等一类网站),查找包含深网网址的帖子
  • 包含深网域名的网站,好比deepweblinks.com,darkspider.com等
  • TOR网关的统计信息,好比tor2web.org这类网站支持用户无需安装TOR即可以访问隐藏的服务并统计天天的域名访问信息
  • I2P解析文件,做为一种加快I2P主机名解析方法,它能够从一些隐蔽的网站下载一些预先准备好的主机列表。咱们能够在这个列表找到一些有趣的新域名
  • Twiter,从Twiter查找包含深网域名的URL

数据收集模块在发现新域名后生成数据索引,同时还对各个URL组件进行流量分析。这些分析操做可以使咱们发现新的恶意软件活动。

通用深网网关

前面咱们已经提到过,深网的资源很难爬取。须要经过TOR和I2P这类专用软件代替DNS和TLD做为网络地址解析工具。为了方便快速访问深网的资源,咱们部署了一个Charon(一个可使用URL发送HTTP请求到目标服务器的透明代理服务器)。

根据URL的种类,Charon链接到:

  • TOR负载均衡器
  • I2P
  • Freenet节点
  • 可以解析私人TLD的私人DNS服务器

页面侦察

对于每一个收集到的URL都要执行“侦察”操做。即尝试链接到URL并保存响应的数据。当发生错误的时候,侦察器保存全部错误信息供使用者查看错误是由域名解析,服务器端错误或传输失败等缘由形成的。HTTP请求失败以后,侦察器会保存整个HTTP头部,这个头部能够用来侦察恶意软件对应的主机。固然,这种状况只是针对特定的HTTP请求。

当成功的时候,侦察器使用无界面浏览器(Headless Browser)从下载下来的页面提取相关的信息:

  • 记录全部HTTP头,并追踪全部重定向连接。
  • 执行网页DOM渲染(为了获取动态javascript页面)
  • 获取网页的快照
  • 计算网页的大小和MD5
  • 提取网页的元数据:标题,标签,资源,关键字等等
  • 提取网页的文本内容
  • 提取网页全部连接
  • 收集网页中全部email地址
  • 提取URL并反馈给数据收集模块,而后做为附加数据源的索引。

数据富集

数据富集(Data Enrichment)由侦察的数据组成,针对每一个侦察成功的页面执行如下操做:

  • 检测页面的语言
  • 使用Google翻译全部非英文网页
  • 经过Web信誉系统针对连接进行评级分类
  • 使用语义聚类算法分析生成WordCloud

聚类算法生成的WordCloud就已经包含了重要的信息。该算法的工做流程以下:

  1. 记录页面上的特殊单词和每一个单词词频
  2. 筛选单词,只保留名词,其它如动词,形容词都去掉。名词只保留单数形式
  3. 计算语义距离矩阵:这个矩阵记录词与词彼此之间的分类距离。这个矩阵称之为WordNet矩阵。WordNet矩阵测量每一个单词的分类距离。例如,“棒球”和“篮球”的距离就很是接近,由于二者都属于“体育”。一样,“猫”和“狗”的距离也很相近,由于它们都是属于“动物”。而另外一方面,“狗”和“棒球”的距离就很远了
  4. 词集的单词距离由内向外增长。一旦咱们拥有每一个词对的距离,即可以创造一组具备意义类似的单词组
  5. 词集使用的第一个词的字母顺序为标签标注,并计算词集中每一个单词的词频
  6. 使用词集里面分数前20名的标签,绘制生成WordCloud

数据富集模块让分析人员能够快速从一个网页当中得到主旨。

存储和索引

订阅的URL和侦察的信息都根据不一样标准的索引方式保存到Elasticsearch集群。侦察信息做为每一个网页文档的索引,并由Elasticsearch提供搜索功能。这种关联关键字的方式经过文本查询就能够搜索成千上万的网页。每一个URL组件的URL信息也做为统计信息保存起来,它能够用于肯定一个系统的主机名以及查看这个URL的流行程度。其它用途还有:给定一个主机名和参数就能够查看它第一次访问状况,或者找出哪些URL访问次数最频繁等等。

UI和可视化

为了访问和操做数据,咱们须要借助三个不一样的前端系统:

  • 为了进行定性分析,咱们开发了一个深网门户网站。这个工具能够方便调查人员经过不一样的方式搜索深网的内容。咱们提供不一样的可视化效果:一个网站分类,它容许用户经过主机名,路径,字符串等方式浏览全部深网的URL。一个URL概要视图,用于显示全部收集的URL。一个侦察概要视图,提供一个单独的侦察网页用于搜索网页内容。
  • 为了进行定量分析,咱们依靠Kibana提供的先进数据统计功能和实时数据计算功能。它提供了一个数据挖掘标签和可视化标签。可视化视图标签根据不一样的数据指标和聚合进行绘制图表。
  • 对于更高级的数据检验,咱们使用了IPython Notebook。它含有丰富程序库,方便嵌入到Elasticsearch集群当中检验本地数据和编译详细的报告信息。

0x02 深网的情况


在本节当中,咱们将展现一些用咱们的系统收集到的深网应用场景。

首先先来看下在过去两年间收集到的全部现有深网网页的语言分布状况。

有两种方法能够进行语言检测:一是使用Python的第三方guess_language模块,它基于Trigram算法实现,并支持离线使用。二是使用Google翻译。在使用的时候须要比较二者的探测质量避免形成数据误差。例如,Google翻译有“未知语言(当网页没有数据的时候)”的概念。并且默认状况下是使用英语。所以一个不慎就容易形成巨大的数据误差。

下图显示网页语言的分布状况,在统计的时候咱们已通过滤掉小于1KB的数据量的语言(由于数据量过小说不上话)。

能够看到深网网页主要以英文为主,在全部域名当中占到75%。第二是俄国,而后是法国(可能包括法国和加拿大)。

接下来咱们看一下过去两年间收集到的全部域名的URL调用方法(HTTP,HTTPS,FTP...)。HTTP(s)协议占到了22.000。若是过滤掉这些数据,能够看到以下图所示的有趣数据:

超过100个站点使用了IRC(S)协议。这些都是正常的聊天服务器。固然,它们也能够做为进行违法交流场或做为僵尸网络(Botnet)的通讯渠道使用。同种类型的还有运行在TOR的聊天服务器的7 XMPP(相似Jabber所使用的)域名。

一些深网犯罪活动的例子

深网里面提供很是好的翻译环境供人们交易商品或服务,并提供保证人们在交易时的匿名性。虽然缺少身份证的交易虽然存在很大的风险,但同时也提供了相对的安全性。这种方式使得深网网民能够自由地贩卖交易非法商品或服务。此外,不一样于地下网络犯罪,深网大多数活动都对“真实世界”起着重大的影响做用。

在这里咱们没法担保这些商品或服务的真实性,只针对性讨论那些真实存在的网站广告。并且咱们没法覆盖全部产品和服务,在这里主要介绍几个重要的交易类型。

贩卖护照和国籍

即便是假的护照或身份证也是很是好用的证件。这些证件不仅仅能够用于出国(包括买家不容易出现交叉),也能够用于开设银行帐户,申请贷款,购买房地产等等。因此毫无疑问,护照和身份证都是一种颇有价值的商品。有几个深网网站都声称它们出售正式的护照和身份证,价格在不一样国家和不一样卖家之间也各不相等。

这类服务很难保证说没人购买。特别是那些在异国他乡但护照身份证被骗/盗/丢失的人为了继续留在该国家可能就会购买这些非法证件。

USA Citizenship for sale for under 6000 USD http://xfnwyig7olypdq5r.onion/

Pricing information and samples for fake passports and other documents http://fakeidigyiumbgpu.onion

参考:

  1. USA Citizenship
  2. UK Passports
  3. Fake Passports, many countries

盗卖账号

盗卖账号毫不仅限于深网,表网地底下这种类型的交易也很常见。在过去咱们写了大量关于俄罗斯和中国这方面的报告。其中,信用卡、银行帐户,在线拍卖网站和游戏多是最多见的盗卖账号类型。

表网上不一样的网站之间价格也相差甚大。但成熟的商品每每都会有一我的们广泛接受的订价标准。一般会有两种售卖方式:高质量通过已验证的账号,但须要提供明确的账号余额。大量未经验证的账号,但须要保证至少一部分有效。第一种销售方式成本虽然高了一些,但可能带来更多的高质量的买家。而批发账号售价会相对便宜一些。

Unverified accounts sold in bulk – 80% valid or replacement offered http://3dbr5t4pygahedms.onion/

能够发现深网出售的商品都能在表网找到对应的商品。因此说表网不是没有这种类型论坛,只是深网上看起来逼格更高一些。

Replica credit cards created with stolen details http://ccccrckysxxm6avu.onion/

参考:

  1. www.trendmicro.com/cloud-conte…
  2. www.trendmicro.com/cloud-conte…
  3. www.trendmicro.com/cloud-conte…
  4. Stolen Paypal accounts
  5. Unverified stolen accounts
  6. Replica stolen credit cards

暗杀服务

这也是深网里面最黑暗的服务之一,这类服务提供暗杀服务和杀手出租服务,若是放在表网上那绝对是愚蠢至极。深网存在几个这样的服务提供商,并且在他们网站也公开说明他们是如何保证业务的机密性。一个网站明确说明:它们不提供杀手们过去的工做证实,以及以往的客户反馈状况和暗杀成功的证实。相反,他们使用比特币做为信誉象征。最后,只有当杀手展开暗杀并提供证实,才能得到佣金。

C’thulu Resume – Assassination Services for Hire http://cthulhuuap7ch47k.onion

从上图能够看到,服务的价格随着目标的死亡方式,受伤方式和地位的不一样而不一样。最近,Ross Ulbricht就因利用丝绸之路进行贩毒被判刑而企图雇佣五个杀手干掉他的合伙人。

还有另一种不一样的服务,称之为“众包暗杀”。在DeadPool这个网站里面,用户提出潜在的暗杀目标,而后其余人向“死亡之池”扔比特币。暗杀者预测目标大概何时以什么方式死亡。若是这我的确实死了,并且符合预测的结果,那么暗杀者就能够得到这笔钱。至今为止已经提出了四个名字,然而尚未钱进入池中。咱们能够猜想这是一个钓鱼网站。

Deadpool – Crowd Sourced Assassination http://deadpool4x4a25ys.onion

参考:

  1. www.wired.com/2015/02/rea…
  2. Contract Killers (C’thulu Resume)
  3. Crowdsourced assassination

比特币和洗钱

比特币(Bitcoin)自己是为了匿名流通而设计的货币。所以它常用在购买非法商品或服务上面(固然也能够购买合法的东西)。虽然只要不把比特币跟你的真实身份打上挂钩就能够保证在交易的匿名性。可是,每笔比特币的交易都是彻底公开的。因此,尽管比较困难,调查人员追查资金的流通状况仍是可行的。

有一些服务能够提升你的货币在系统中的匿名性,使得这些货币流通状况更难以追查。这些服务一般把你的货币在网络蜘蛛上进行微交易后再返回到你手上。在这个过程你会丢失少量货币(一般减去少许的手续费),但可使得你的交易过程变得更加难以追查。

EasyCoin – Bitcoin laundery service http://easycoinsayj7p5l.onion

比特币洗钱服务能够提升资金在比特币系统流通的匿名性。但人们最但愿的仍是从系统从把比特币经过其它方式转换为现金。深网有转换现金的匿名服务:它们基本都是经过Paypal,ACH,西联汇款或者直接发送邮件给你现金。

WeBuyBitcoins – Exchanging Bitcoin for cash or electronic payments http://jzn5w5pac26sqef4.onion

像WeBuyBitcoins这类网站在表网提供非匿名但相对较高的汇率的交易。对于犯罪分子来讲可能原意承担更大的风险得到更多的现金。另外还有一种选择是:使用比特币购买假币。

Buying counterfeit 20 USD for approximately half the price of face value http://usjudr3c6ez6tesi.onion

参考:

  1. Bitcoin used to by a Tesla Model S
  2. EasyCoin – Bitcoin Wallet with free Bitcoin Mixer / Laundery
  3. OnionWallet – Bitcoin Wallet with free Bitcoin Mixer / Laundery
  4. WeBuyBitcoins – Sell Bitcoins for Cash (USD), ACH, WU/MG, LR, PayPal and others
  5. Counterfeit $20 USD / Euro Bills
  6. Counterfeit $50 Euro Bills
  7. Counterfeit $50 USD Bills

泄漏政府,执法部门,法人的信息

黑客文化是一种一群志同道合的人组成的松散式或封密式的组织。因为这种性质,组织之间很容易发生竞争冲突。发生冲突时“Dox”对方是一种常见的作法,Dox是指经过计算机检索,黑客等行为把对方的我的信息发布到网络上。获取对方我的信息方法有不少,但一般会结合公共数据,社会工程学和黑客攻击几种方法收集对方的我的信息。

Cloudnine Doxing site – note it requests SSN, medical & financial info and more http://cloudninetve7kme.onion

可是Dox现象不只限于黑客之间,针对敌手公司,名人,公众人物的Dox也是很常见的。暴露的信息也不只限于黑客获取到的信息,也多是内部人员透露的。通常状况下都把信息提交到维基解密(Wikileak)上。深网也有这种类型的网站,容许提交这些信息。

很难保证这些信息的真实性。但经过泄漏的信息包括:生日,SSN,我的email地址,手机号码,居住地址等等。Cloud Nine这个网站列出了一些可能“Dox”信息:

  • 几个FBI特工
  • Bill,Hillary Clinton,Barack,Michelle Obama,Sarah Palin,美国参议员还有其它一些政府人员。
  • Angelina Jolie,Bill Gates,Tom Cruise,Lady Gaga,Beyonce,Dennis Rodman等名人。

Apparent personal email account of Barack Obama (unverified) http://cloudninetve7kme.onion

Apparent leaks of LEA (unverified) http://cloudninetve7kme.onion

A leak for Kim Kardashian among other hacker related dox http://cloudninetve7kme.onion

参考:

  1. Doxing archive
  2. Wikileaks clone
  3. Wikileaks submission portal
  4. Possible Judge Forrest leak

病毒

正如前面提到过的,深网最多见的就是贩卖毒品和武器。但在这篇文章中咱们不打算深刻探讨这些细节,由于已经有不少文章报告了深网贩卖病毒的事情。但咱们想强调的是,即便是运维“丝绸之路”贩卖毒品的Ross Ulbricht最近也被判无期徒刑。贩卖毒品对于本文分析深网的份量来讲并非很重要。

深网里面贩卖的毒品类型众多,有烟草,大麻,迷药,可卡因等等。

The Peoples Drug Store – selling Heroin, Cocaine, Ectasy and more http://newpdsuslmzqazvr.onion

Grams – the Deepwebs search engine for drug http://grams7enufi7jmdl.onion

除了专门的商店和讨论外,还有一个很是受欢迎的网站“Grams”。网站风格有些相似Google,并且提供简单的搜索引擎容许搜索毒品。它在深网里面已经成为那些想购买毒品的人的旗帜性网站。

咱们甚至发现TOR里面有些网站还提供大麻的培植环境:现场的温度,水分,还有植物的生命周期。

Growhouse – showing temperature and live streaming of Cannabis plant http://growboxoo2uacpkh.onion

Drugs dealer in the Deep Web

咱们只因此要在这一节介绍深网里面的毒品报告是由于想强调:就像丝绸之路同样,它会记录下你的犯罪行为。深网根本上并非一个好的解决方案。一方面买家但愿向你购买毒品,另外一方面还须要有卖家提供货源。市场和论坛只是做为一个交易转接点,你要是不想使用它,那么只要商品的双方需求量够大,马上会有其它市场伴随需求而诞生。

参考:

  1. www.forbes.com/sites/katev…
  2. Contraband Tobacco
  3. Cannabis
  4. Psychedelics
  5. Heroin, Cocaine and others
  6. Grams – Deep Web drug search engine
  7. Live feed from a Cannabis Growhouse
  8. Expert Insight video Series – The Deep Web

恶意软件

深网和恶意软件之间在许多方面上可以完美结合在一块儿。特别是当使用深网做为C&C控制服务器基础设施使用的时候可以利用TOR和I2P强大的加密功能隐藏位置信息保证网站和服务的匿名性。这使得调查人员很难使用传统的方式检查服务器IP地址和登陆详情等等。此外,这些网站和服务使用起来很简单。因此没必要惊讶为何那么多网络犯罪分子使用TOR做为C&C。一般恶意软件捆绑了TOR的客户端。这种趋势最先在2013年开始,当时MEVADE恶意软件还形成了TOR流量剧增,2014年以后流行的是类ZBOT恶意软件家族。

举个例子,VAWTRAK恶意软件是一种经过钓鱼邮件进行扩散的银行木马。每一个样本都使用C&C服务器提供的IP地址列表进行通信,IP地址列表向TOR主机网站下载(一般是一个icon文件,通常命名为favicon.ico)。这种方式的好处是保证犯罪服务器的匿名性。但这不是全部人都能访问,只有那些受到病毒感染的系统才能访问C&C服务器。

Vawtrak C&C showing the legitimate looking Favicon http://4bpthx5z4e7n6gnb.onion/favicon.ico

web服务器经过favicon.ico文件配置C&C控制服务器(大多数运行在openresty/1.7.2.1)。咱们能够经过搜索这些网站的完整列表下载天天最新的C&C。

Example of fetched HTTP headers from C&Cs

Identified TOR-based C&Cs (1)

Identified TOR-based C&Cs (2)

另外一个使用深网的恶意软件是CryptoLocker。CryptoLockeree是一款ransomware勒索软件的变种,它经过加密受害者的我的文档和资料,并在受害者再次访问的时候重定向到它的网站以达到勒索目的。CryptoLocker能够自动调整付款页面的语言和支付手段。TorrentLocker是CryptoLocker的变种,它使用TOR做为主机,并使用比特币做为支付方式。这就说明了为何犯罪分子为何要使用深网做为基础设施,由于它确实更加安全。下面的截图是深网分析器捕获到的两种语言的付款页。

Cryptolocker C&C automatically formatted for a victim in Taiwan and Italy http://ndvgtf27xkhdvezr.onion

Breakdown by Victims and Countries

下面是一个有关恶意软件盗取机密信息的例子。在咱们的搜索方法当中,咱们使用一个最近和最短的时间窗口做为查询字符串,这样咱们能够快点发现深网里面新的威胁。

在这个例子中,xu和xd两个参数在过去一周人气剧增。xu关联超过1700个的字典值并组成二进制对象文件。进一步观察发现,xu使用NionSpy窃取受权凭证(一般是网上银行等),而后收集键盘记录并发送到深网中。与此同时,xd用于注册感染新的僵尸网络。注册信息包含受害者机器名和操做系统版本号,通讯的参数相似下面的JSON字符串:

[REDACTED]2xx.onion:80/si.php?xd={“f155”:”MACHINE IP”,”f4336”:”MACHINE NAME”,”f7035”:”5.9.1.1”,”f1121”:”windows”,”f6463”:””,”f2015”:”1”}
复制代码

经过泄漏出来的数据收集分析注册相关的信息,构建显示天天新增的受害者图表。

Automated Analysis on Prevalent Query-String Parameters

Number of new Infections (and Leaked data, in bytes) per day.

最后值得一提的是:一款名为Dyre的木马将I2P做为C&C服务器的备份选项。正常状况下则使用表网的DGA。这个木马做为一个BHO的MiTMs运行在浏览器的网上银行上。攻击者能够经过后门访问受到感染的受害者银行门户。DeWA介绍这个恶意软件的时候说到:在过去的6个月间,受到I2P感染的受害者的数量明显增长。

Traffic to Dyre’s I2P infrastructure.

参考:

  1. blog.trendmicro.com/trendlabs-s…
  2. blog.trendmicro.com/trendlabs-s…
  3. blog.trendmicro.com/trendlabs-s…
  4. blog.trendmicro.com/trendlabs-s…
  5. Vawtrak / Neverquest C&C
  6. Cryptolocker C&C
相关文章
相关标签/搜索