深度解析Containers--系统架构

时间 2019-12-29

标签深度解析 containers 系统架构栏目系统架构繁體版

原文原文链接

什么是 Containers?

随着Kubernetes，Docker Compose，Mesos OS，Consul等出现，容器是这些云计算时代的头条新闻。html

要真正了解容器的架构组合，您须要首先了解如下几点：linux

Linux Kernel User & System Space
Syscalls and Capabilities
Cgroups
Namespaces
EIAF (Everything Is A File), a description of the Unix based Filesystem

尽管Mac内核符合POSIX且基于OpenBSD，可是这5件事对于真正了解容器的工做原理以及为何须要Linux VM在Windows和Mac上运行容器很重要。docker

为何我要这样开始?

我将深刻探讨有关容器的文章，重点是Docker，Dockerfiles和诸如docker build -t之类的命令。至关小的部分仍会在后面的部分中讲述，可是它们如何工做的基础是我今天介绍的内容。ubuntu

所以，我采用了不一样的方法，直接研究了使容器正常工做的因素，以及容器的外观和功能。安全

让咱们从了解Linux内核系统和用户空间入手，以深刻了解容器的实际做用。bash

Linux 内核空间

在Linux中，咱们一般有两个运行应用程序的空间，即内核系统空间和用户空间。一般，在默认的内核配置下，用户空间占用0–3GB空间，而内核空间占用3-4GB空间。网络

内核空间是咱们为运行内核的低级应用程序提供系统内存的位置。用户空间是咱们用户进程运行和执行的环境。架构

这两个内存空间被称为“ Rings”的微调权限层隔开。这些环定义了在能够授予某些操做以前须要知足应用程序要求的特权或特权的程度。app

这些环并非Linux特有的，而是在操做系统中定义明确的布局，尽管每一个级别的功能区域都是根据操做系统所运行的CPU架构分配的。为了在用户空间和内核空间之间切换，咱们经过系统调用（简称为syscall）应用操做。工具

这使用可从用户空间应用程序访问的已定义内核功能来请求访问内核级功能。下图完美地说明了如何定义此顺序。

每当应用程序向内核级功能发出请求时，都会发送一个中断，通知处理器中止正在执行的操做并处理该特定请求，若是能够简化理解，则能够将其视为上下文切换。若是用户空间应用程序具备相关权限，则能够在内核空间中进行上下文切换，在上下文切换启动后，用户空间应用程序将等待响应，并经过适当的中断处理程序在内核空间中执行所需的程序/功能。

tmp\_buf = mmap(file, len); # mmap here is from a C library\# This is called a memory map and it's a C function  
\# It allocates a certain amount of memory for a task, file etc.  
\# Since memory is a kernel space resource, a syscall is made to the mmap syscall in the linux kernel to make this request possible

SysCalls 和 Capabilities

系统调用又名syscall是一个API，它容许一小部份内核功能公开给用户级应用程序。真正强调的一小部分是告知任何阅读者，系统调用是有限的，而且通用于特定目的。它们在每一个操做系统上都不相同，而且在访问的定义和访问方式上也有所不一样。

追溯到先前的mmap示例，该接口未在列表中列出，由于它只是一小部分，可在此处得到linux中syscall的完整列表。

有时，咱们有一组要组合在一块儿的系统调用，咱们使用名为Capabilities的Linux内核功能来实现。这些是预约义的特权集，正在运行的程序能够访问这些特权或受其限制。
经过将相关调用分组为可当即授予或拒绝的已定义特权，功能进一步加强了系统调用。这甚至防止了根级应用程序利用保留的权限来利用受限的内核空间。

有几种linux功能，之后将在大多数文章中访问它们，以了解它们如何使用SecComp等配置文件与容器进行集成，更具体地说是使用AppArmor，SELinux等LSM（Linux安全模块）进行集成，可是您能够在此处的手册页中引用列表。

Cgroups

控制组（一般称为cgroup）是Linux内核容许将流程组织为分层的功能,而后能够限制其使用各类类型资源的组并进行监控。内核的cgroup接口经过 伪文件系统，称为cgroupfs。分组在 核心cgroup内核代码，而资源跟踪和限制是 在一组每一个资源类型的子系统（内存，CPU， 等等）。

简单来讲，cgroup控制着咱们可使用的功能。它们的功能列表以下所示：

资源限制：能够将组配置为不超过指定的内存限制或使用的处理器数量不超过时望的数量，或者限制为特定的外围设备。
优先级：能够将一个或多个组配置为利用更少或更多的CPU或磁盘I / O吞吐量。
记账：监视和衡量组的资源使用状况。
控制：能够冻结或中止并从新启动进程组。

Cgroup经过使用子系统/控制器来运行，这些子系统/控制器能够修改进程的运行时环境。在v1和v2两个版本中有多个控制器可用。

在v1控制器领域，咱们具备如下优点：

blkio-该子系统设置了对块设备（例如物理驱动器（磁盘，固态或USB））的输入/输出访问的限制。
cpu-该子系统使用调度程序向cgroup任务提供对CPU的访问。
cpuacct —此子系统生成有关cgroup中任务所使用的CPU资源的自动报告。
cpuset-此子系统将单个CPU（在多核系统上）和内存节点分配给cgroup中的任务。
devices-该子系统容许或拒绝cgroup中的任务访问设备。
freezer-该子系统挂起或恢复cgroup中的任务。
memory-该子系统设置cgroup中任务对内存使用的限制，并自动生成有关这些任务使用的内存资源的报告。
net_cls —该子系统使用类标识符（classid）标记网络数据包，该类标识符容许Linux流量控制器（tc）识别源自特定cgroup任务的数据包。
net_prio-该子系统提供了一种动态设置每一个网络接口的网络流量优先级的方法。
ns —名称空间子系统。
perf_event —此子系统标识任务的cgroup成员身份，可用于性能分析。
hugetlb-支持限制cgroup使用大页面。
pids-此控制器容许限制进程数量能够在cgroup（及其后代）中建立。
rdma — RDMA（远程DMA）控制器容许限制每一个cgroup使用RDMA / IB专用资源。

对于v2控制器空间，因为未实现某些控制组，所以咱们具备v1的某些功能，linux系统能够同时使用这两个功能，可是v2系统更紧凑，cgroup更少。

io —这是版本1 blkio控制器的后继产品。
memory—这是版本1内存控制器的后继产品。
pids —与版本1 pids控制器相同。
perf_event —与版本1的perf_event控制器相同。
rdma —与版本1 rdma控制器相同。
cpu —这是版本1 cpu和cpuacct控制器的后继产品。

您会注意到，它在功能方面与版本1控制器相同。每一个cgroup提供限制一个或多个资源的功能。有关此问题的库和工具将在之后的部分中进行从新介绍。

Namespaces

命名空间使容器相信它们存在于彻底隔离的环境中，而不是在主宿主系统中。更具体地说，容器内的进程将自身视为系统内惟一的进程。

您能够认为它在盒子里，而在盒子里，您认为本身是盒子的主人，可是您只是在实际上拥有两个盒子的另外一我的的盒子里玩梦境。因为具备此功能，所以能够在容器中运行容器，尽管稍后会涉及到一些问题。

对于名称空间功能，它嵌入在Linux组成部分中。

这些名称空间提供了不一样的功能。

IPC —隔离进程间通讯，这个大词意味着进程能够沿着通道或管道在彼此之间共享消息，就像流水经过管道同样。没有名称空间，就像咱们的主要管道同样，一个容器（进程）可使用同一管道将数据提供给其余进程。对于命名空间，该管道是惟一的，而且仅限于namespace中的某些进程。在linux中，这是使用/dev/shm（共享内存）或/dev/mqueue（消息队列）块文件从主机共享的。
Network-负责隔离IP地址，接口，网络请求，端口等。
Mount—限制在主机上使用卷和外部数据挂载。名称空间中的进程正在其本身的本机文件系统中运行。
PID —隔离进程运行时，对主机上的进程与名称空间中的进程之间进行纯粹的限制。所以，主机上的bash实例与容器中的实例不一样。这是一种独特的功能，它使咱们能够在主机自己之外的容器中运行应用程序。
User—限制容器用户的UID（UserID）和GID（Group ID）分配。因为容器没法从主机读取信息，所以这能够有效地保护主机。
UTS —用于设置或获取主机名，很是简单。

全部这些名称空间都是使用unshare系统调用实现的，以隔离资源。

Linux FileSystem

在Linux中首先要注意的是，全部内容都是一个文件。我不骗你，从存储设备，串行设备等全部/dev/\*一直到/proc/fileystems中的文件系统列表，一直到主机上运行的cgroup。不一样文件系统之间的大多数交互都是由虚拟文件系统驱动程序（VFS）处理的，但这是另外一个的主题。

由于全部内容都是文件，因此我能够从字面上 cat以查看受支持的配置。

如前所述，容器是进程。咱们都了解了容器和VM之间的区别的方式是，容器共享主机的内核及其某些资源。这里的主要提示是资源，容器使用不一样的根文件系统开始本身的操做，容器（提示：它们是进程）开始使用的实际文件系统是镜像。

镜像是一个Linux文件系统，大部分通过压缩，而后使用一些COW（写时复制）文件系统（例如AUFS，device-mapper，Btrfs，XFS等）从中执行。

对于安装了docker的用户，您能够运行如下命令以查看docker镜像的内部结构（不是容器，容器是进程，正在运行的镜像等。）

mkdir rootfs && \
docker export $(docker create ubuntu:18.04) | tar -C rootfs -xvf -

主要的linux文件系统很是特殊，由于您会注意到vmlinuz和initrd.img，我稍后会再提到。

在这里，咱们注意到咱们没有在主文件系统上看到的initrd和vmlinuz文件，这是由于这两个文件是内核文件。

InitRD— Init Ram Disk

初始RAM磁盘（initrd）是在实际根文件系统可用以前安装的初始根文件系统。 initrd绑定到内核，并做为内核引导过程的一部分进行加载。而后，内核将此initrd挂载为两阶段引导过程的一部分，以加载模块以使实际文件系统可用并得到真实的根文件系统。

VMLinuz —Virtual Memory LINUx gZip

vmlinuz是Linux内核可执行文件的名称。 vmlinuz是压缩的Linux内核，它可以将操做系统加载到内存中，从而使计算机可用并能够运行应用程序。

在linux上，您可能会遇到vmlinux或vmlinuz。它们相同，但其中之一被压缩。

vmlinuz =VirtualMemoryLINUx gZip = Compressed Linux kernel Executable

vmlinux =VirtualMemoryLINUX = Non-compressed Linux Kernel Executable

vmlinuz和initrd文件都在引导时使用。

如今，这是主要缘由，在容器文件系统或镜像中没有这两个文件。

容器使用主机内核!

不须要启动序列便可获取内核，容器中应用程序的全部可能请求都是经过主机调用经过主机调用发出的，该调用经过rings, capabilities, seccomp, LSMs等强制执行，一直返回到全部普通的linux程序。

这里的主要思想是容器只使用彻底不一样的文件系统，可是它们共享相同的Linux内核。对于那些稍微了解linux的人来讲，咱们知道咱们能够将chroot转换为外部linux文件系统，并在其中进行操做，就好像文件系统已启动同样，前提是来自主机的全部必要文件都经过绑定安装在该文件夹中。

若是您已经读了该文章的某些部分，您会发现容器相似chroot，只不过与名称空间，cgroup和许多其余很酷的功能打包在一块儿，以使应用程序沙箱在同一主机上尽量安全。

Summary

容器是在命名空间内执行的运行时进程，该命名空间由cgroup和各类其余LSM和安全功能管理，以确保在运行时彻底隔离进程。容器中的这些过程以及诸如Docker之类的容器运行时尤为是自动化的，它简化了不少讨论的事情，可是我所解释的主要基础层仍然是相同的。