一个Python开源项目-哈勃沙箱源码剖析（下）

时间 2019-12-09

原文原文链接

前言

在上一篇中，咱们讲解了哈勃沙箱的技术点，详细分析了静态检测和动态检测的流程。本篇接着对动态检测的关键技术点进行分析，包括strace，sysdig，volatility。volatility的介绍不会太深刻，内存取证这部分的研究还须要继续。html

strace机制

上一篇讲到了strace和ltrace都是基于ptrace机制，可是对ptrace机制和strace/ltrace是如何利用ptrace监控系统调用，没有进行详细的讲解。linux

那什么是ptrace机制呢？程序员

ptrace机制是操做系统提供了一种标准的服务来让程序员实现对底层硬件和服务的控制。shell

当一个程序须要做系统调用的时候，它将相关参数放进系统调用相关的寄存器，而后调用软中断0x80，这个中断就像一个让程序得以接触到内核模式的窗口，程序将参数和系统调用号交给内核，内核来完成系统调用的执行。ubuntu

ptrace会在何时出现呢？浏览器

在执行系统调用以前，内核会先检查当前进程是否处于被“跟踪”(traced)的状态。若是是的话，内核暂停当前进程并将控制权交给跟踪进程，使跟踪进程得以察看或者修改被跟踪进程的寄存器。安全

strace监控系统调用markdown

下面就以strace为例，以下图所示,在第2步和第3步是关键。网络

strace使用ptrace机制来检测目标进程并“监听”该进程的系统调用，strace能够在每次调用系统调用时中断跟踪的进程，捕获调用，解码它，而后继续执行跟踪的进程。数据结构

你们可能知道，每次调用系统调用（例如，打开，读取，写入，关闭）时，都须要从用户级别到内核级别的转换 - 这称为上下文切换。这取决于CPU系列和型号，以不一样的方式实现，但它每每复杂且相对较慢。

sysdig机制

sysdig是一个开源系统发掘工具，用于系统级别的勘察和排障，能够看做system（系统）+dig（挖掘）的组合。咱们能够把它看做一系列传统的 unix 系统工具的组合，主要包括：

strace：追踪某个进程产生和接收的系统调用。
tcpdump：分析网络数据，监控原始网络通讯。
lsof：列出打开的文件。
top：监控系统性能工具。
htop ：交互式的进程浏览器，能够用来替换 top 命令。
iftop ：主要用来显示本机网络流量状况及各相互通讯的流量集合。
lua：一个小巧的脚本语言。该语言的设计目的是为了嵌入应用程序中，从而为应用程序提供灵活的扩展和定制功能。

sysdig工做方式分红用户空间和内核空间两个部分，结构以下图所示（附件画图画的）：

数据的捕获流程分为以下5部分：

在内核有一个组件叫 sysdig-probe,也能够把它称为数据探头，它经过跟踪 linux 内核来进行数据抓获。
事件缓冲器（event buffer）用来把存储器映射到用户空间。
scap 组件：用来进行捕获控制和转储文件，以及数据的状态采集。
sinsp 组件：用来进行事件分析、执行凿子（chisel），设置过滤和输出格式化。
最后 sysdig 工具在命令行解析采集的数据。

从总体架构上来看，sysdig与libpcap / tcpdump / wireshark的架构很是类似，都是先捕获大量的数据，而后使用过滤器获取本身想要的数据。

但愿你们注意到一个问题， sysdig-probe从内核捕获的数据会很是大的，用户空间里的scap，sinsp，sysdig组件能处理过来吗？假如处理不过来，sysdig会采用什么机制呢？sysdig会像strace同样放慢程序速度吗？

答案是否认的。在这种状况下，事件缓冲区填满，sysdig-probe开始丢弃传入的事件。所以，将丢失一些跟踪信息，但机器上运行的其余进程不会减慢速度，这是sysdig架构的关键优点,意味着跟踪开销可预测。既然sysdig这么强大，下面讲解一下sysdig的基本用法。

sysdig 基本用法

我以ubuntu系统中的操做为例，直接在shell输入sudo sysdig 就能开始捕获系统信息，执行后你会看到终端有持续不断的输出流。

$ sudo sysdig

由于系统每时每刻都有大量的系统调用产生，这样是没办法看清更没法分析输出信息的，能够先使用 ctrl + c 来退出命令。输出以下图所示：

先来解释一下它的输出格式：

全部的输入都是按照行来分割的，每行都是一条记录，由多个列组成，默认的格式是：

%evt.num %evt.outputtime %evt.cpu %proc.name (%thread.tid) %evt.dir %evt.type %evt.info

各个字段的含义以下：

evt.num：递增的事件号
evt.time：事件发生的时间
evt.cpu：事件被捕获时所在的 CPU，也就是系统调用是在哪一个 CPU 执行的。比较上面的例子中，值 0 表明机器的第一个 CPU
proc.name：生成事件的进程名字，也就是哪一个进程在运行
thread.tid：线程的 id，若是是单线程的程序，这也是进程的 pid
evt.dir：事件的方向（direction），> 表明进入事件，< 表明退出事件
evt.type：事件的名称，好比 open、stat等，通常是系统调用
evt.args：事件的参数。若是是系统调用，这些对应着系统调用的参数

过滤

完整的 sysdig 使用方法：

sysdig [option]... [filter]

sysdig 的过滤功能很强大，不只支持的过滤项不少，并且还可以自由地进行逻辑组合。

过滤项

sysdig 的过滤器也是分红不一样类别的，好比:

fd: 对文件描述符（file descriptor）进行过滤，好比 fd 标号（fd.num）、fd 名字（fd.name）
process: 进程信息的过滤，好比进程 id（proc.id）、进程名（proc.name）
evt: 事件信息的过滤，好比事件编号、事件名
user: 用户信息的过滤，好比用户 id、用户名、用户 home 目录、用户的登陆 shell（user.shell）
syslog: 系统日志的过滤，好比日志的严重程度、日志的内容
fdlist: poll event 的文件描述符的过滤

完整的过滤器列表可使用sysdig -l来查看，好比能够查看创建 TCP 链接的事件：

sudo sysdig evt.type=accept

过滤器组合

过滤器除了直接的相等比较以外，还有其余操做符，包括=、!=、>=、>、<、<=、contains、in 和 exists，

好比：

$ sysdig fd.name contains /etc

$ sysdig "evt.type in ( 'select', 'poll' )"

$ sysdig proc.name exists

多个过滤条件还能够经过 and、or 和 not 进行逻辑组合，好比：

$ sysdig "not (fd.name contains /proc or fd.name contains /dev)"

volatility简单描述

到这发现已经写了4千多字，volatility这里简要描述一下，详细的分析，等我以后对内存取证有了一个总体的框架再说。

Volatility是一个Python编写的跨平台,用于内存分析的法证工具,其目的是为了在数据犯罪中提取易失性数据 ,也能够用来进行Rootkit的检测和协助清除。Volatility分析主要依赖的是profile文件，profile文件是由两部分合成。以linux为例，大体以下：

Linux的System.map文件列出了详细的系统调用（syscall）,而kernel-header源码经过dwarfdump生成的module.dwarf文件中会包含不少内核数据结构,将以上2个文件打包为profile文件。
再用这个profile文件解析dump下来的物理内存,就很容易找到植入Rootkit的机器活动时的进程(linux_psaux)、网络通讯(linux_netstat)、活动文件(linux_lsof)、驱动模块(linux_lsmod)等等

最后

关注公众号：七夜安全博客

回复【1】：领取 Python数据分析教程大礼包
回复【2】：领取 Python Flask 全套教程
回复【3】：领取某学院机器学习教程
回复【4】：领取爬虫教程
回复【5】：领取编译原理教程
回复【6】：领取渗透测试教程
回复【7】：领取人工智能数学基础教程

本文章属于原创做品,欢迎你们转载分享，禁止修改文章的内容。尊重原创,转载请注明来自:七夜的故事 http://www.cnblogs.com/qiyeboy/