Docker容器实战(五) - 特殊的进程!

时间 2020-06-03

标签 docker 容器实战特殊进程栏目 Docker 繁體版

原文原文链接

容器起于PaaS
Docker项目具备里程碑意义
Docker项目经过“容器镜像”，解决应用打包这个根本难题

容器自己没有价值，有价值的是“容器编排”

正由于如此，容器技术生态才爆发了一场关于“容器编排”的“战争”
而此次战争，最终以Kubernetes项目和CNCF社区的胜利而了结。docker

因此会以Docker和Kubernetes项目为核心，为你详细介绍容器技术的各项实践与其中的原理。网络

容器，究竟是怎么一回事儿？

容器实际上是一种沙盒技术
就是可以像一个集装箱同样，把你的应用“装”起来的技术。这样，应用与应用之间，就由于有了边界而不至于相互干扰
而被装进集装箱的应用，也能够被方便地搬来搬去，这不就是PaaS最理想的状态嘛。spa

这两个能力提及来简单，但要用技术手段去实现它们，可能大多数人就无从下手了。
就先来讲说这个操作系统

“边界”的实现手段

如今要写一个计算加法的程序
输入来自于一个文件
输出到另外一个文件中。命令行

因为计算机只认识0和1，因此不管用哪一种语言编写这段代码，最后都须要经过某种方式翻译成二进制文件，才能在计算机操做系统中运行起来。
而为了可以让这些代码正常运行，咱们每每还要给它提供数据，好比加法程序所须要的输入文件
这些数据加上代码自己的二进制文件，放在磁盘上，就是咱们日常所说的一个“程序”，也叫代码的可执行镜像（executable image）
而后，咱们就能够在计算机上运行这个“程序”了。线程

首先OS从“程序”中发现输入数据保存在一个文件中，因此这些数据就被会加载到内存中待命
同时OS又读取到了计算加法的指令，这时，它就须要指示CPU完成加法操做。而CPU与内存协做进行加法计算，又会使用寄存器存放数值、内存堆栈保存执行的命令和变量
同时，计算机里还有被打开的文件，以及各类各样的I/O设备在不断地调用中修改本身的状态翻译

一旦“程序”被执行起来，它就从磁盘上的二进制文件，变成了计算机内存中的数据、寄存器里的值、堆栈中的指令、被打开的文件，以及各类设备的状态信息的一个集合
像这样一个程序运起来后的计算机执行环境的总和，就是进程code

进程的静态表现就是程序，日常都安安静静地待在磁盘上
而一旦运行起来，它就变成了计算机里的数据和状态的总和，这就是它的动态表现。blog

而容器技术的核心功能，就是经过约束和修改进程的动态表现，从而为其创造出一个“边界”
对于Docker等大多数Linux容器来讲进程

Cgroups技术制造约束的主要手段
Namespace技术修改进程视图的主要方法。

你可能会以为Cgroups和Namespace这两个概念很抽象，别担忧，接下来咱们一块儿动手实践一下，你就很容易理解这两项技术了。

假设你已经有了一个Linux操做系统上的Docker项目在运行，好比个人环境是Ubuntu 16.04和Docker CE 18.05。

接下来，让咱们首先建立一个容器来试试。

$ docker run -it busybox /bin/sh

-it告诉了Docker项目在启动容器后，须要给咱们分配一个文本输入/输出环境，也就是TTY，跟容器的标准输入相关联，这样咱们就能够和这个Docker容器进行交互了。而/bin/sh就是咱们要在Docker容器里运行的程序。
请帮我启动一个容器，在容器里执行/bin/sh，而且给我分配一个命令行终端跟这个容器交互。

这样机器就变成了一个宿主机，而一个运行着/bin/sh的容器，就跑在了这个宿主机里面。

容器里执行一下ps指令

# ps
PID  USER   TIME COMMAND
  1 root   0:00 /bin/sh
  10 root   0:00 ps

能够看到，咱们在Docker里最开始执行的/bin/sh，就是这个容器内部的第1号进程（PID=1）
而这个容器里一共只有两个进程在运行
这就意味着，前面执行的/bin/sh，以及咱们刚刚执行的ps，已经被Docker隔离在了一个跟宿主机彻底不一样的世界当中。

其实每当咱们在宿主机上运行了一个/bin/sh程序，操做系统都会给它分配一个进程编号，好比PID=100
这个编号是进程的惟一标识，就像工号
因此PID=100，能够粗略地理解为这个/bin/sh是咱们公司里的第100号员工

如今，咱们要经过Docker把这个/bin/sh程序运行在一个容器当中,Docker就会在这个第100号员工入职时给他施一个“障眼法”，让他永远看不到前面的其余99个员工
这样，他就会错误地觉得本身就是公司里的第1号员工。

这种机制，其实就是对被隔离应用的进程空间作了手脚，使得这些进程只能看到从新计算过的进程编号，好比PID=1
实际上，他们在宿主机的操做系统里，仍是原来的第100号进程。

这种技术，就是Linux里面的Namespace机制
它其实只是Linux建立新进程的一个可选参数
在Linux系统中建立线程的系统调用是clone()，好比：

int pid = clone(main_function, stack_size, SIGCHLD, NULL);

这个系统调用就会为咱们建立一个新的进程，而且返回它的进程号pid。
而当咱们用clone()系统调用建立一个新进程时，就能够在参数中指定CLONE_NEWPID参数，好比：

int pid = clone(main_function, stack_size, CLONE_NEWPID | SIGCHLD, NULL);

这时，新建立的这个进程将会“看到”一个全新的进程空间，在这个进程空间里，它的PID是1
之因此说“看到”，是由于这只是一个“障眼法”，在宿主机真实的进程空间里，这个进程的PID仍是真实的数值，好比100。

能够屡次执行clone()，建立多个PID Namespace，而每一个Namespace里的应用进程，都会认为本身是当前容器里的第1号进程，它们既看不到宿主机里真正的进程空间，也看不到其余PID Namespace里的具体状况

除了刚刚用到的PID Namespace，Linux操做系统还提供了Mount、UTS、IPC、Network和User这些Namespace，用来对各类不一样的进程上下文进行“障眼法”操做:

Mount Namespace 让被隔离进程只看到当前Namespace里的挂载点信息
Network Namespace 让被隔离进程看到当前Namespace里的网络设备和配置

这就是Linux容器最基本的实现原理

因此Docker容器是在建立容器进程时，指定了这个进程所须要启用的一组Namespace参数
这样，容器就只能“看”到当前Namespace所限定的资源、文件、设备、状态，或者配置
而对于宿主机以及其余不相关的程序，它就彻底看不到了。

因此容器，实际上是一种特殊的进程而已。

总结

谈到为“进程划分一个独立空间”的思想，相信你必定会联想到虚拟机
你应该还看过一张虚拟机和容器的对比图。

左边虚拟机的工做原理
名为Hypervisor的软件是虚拟机最主要的部分,它经过硬件虚拟化功能，模拟出了运行一个操做系统须要的各类硬件，好比CPU、内存、I/O设备等等
而后，它在这些虚拟的硬件上安装了一个新的操做系统，即Guest OS。

这样，用户的应用进程就能够运行在这个虚拟的机器中，它能看到的天然也只有Guest OS的文件和目录，以及这个机器里的虚拟设备。这就是为何虚拟机也能起到将不一样的应用进程相互隔离的做用。

右边,名为Docker Engine的软件替换了Hypervisor
这也是为何，不少人会把Docker项目称为“轻量级”虚拟化技术的缘由
实际上就是把虚拟机的概念套在了容器

但是这样的说法，却并不严谨
跟真实存在的虚拟机不一样，在使用Docker的时候，并无一个真正的“Docker容器”运行在宿主机里面
Docker项目帮助用户启动的，仍是原来的应用进程，只不过在建立这些进程时，Docker为它们加上了各类各样的Namespace参数
这些进程就会以为本身是各自PID Namespace里的第1号进程，只能看到各自Mount Namespace里挂载的目录和文件，只能访问到各自Network Namespace里的网络设备，就仿佛运行在一个个“容器”

参考

Github
docker官网
Docker实战
深刻剖析Kubernetes