Docker学习总结（一）—— namespace，cgroup机制

时间 2019-11-17

标签 docker 学习总结 namespace cgroup 机制栏目 Docker 繁體版

原文原文链接

1.namespace：css

Linux Namespaces机制提供一种资源隔离方案。PID,IPC,Network等系统资源再也不是全局性的，而是属于特定的Namespace。每一个node

Namespace里面的资源对其余Namespace都是不可见的，要建立新的Namespace，只须要在调用clone时指定相应的flag。Linux数组

Namespaces机制为实现基于容器的虚拟化技术提供了很好的基础，容器正是利用这一特性实现了资源的隔离。不一样container内的网络

进程属于不一样的Namespace，彼此透明，互不干扰。数据结构

Linux很早就实现了一个系统调用chroot，该系统调用可以为进程提供一个限制的文件系统。chroot提供了一种简单的隔离模式：chrootatom

内部的文件系统没法访问外部的内容。Linux Namespace在此基础上，提供了对UTS、IPC、mount、PID、network的隔离机制。spa

UTS: 包含了运行内核的名称，版本，底层体系结构的信息线程

IPC: 包含了全部与进程间通讯有关的信息指针

PID: 就是进程ID继承

mount: 包含了文件系统的视图

NET: 网络访问

1.1 task_struct中的结构：
struct task_struct {
...
struct nsproxy *nsproxy;
...
};

<——————将给定进程关联到所属的各个命名空间——————>
struct nsproxy {
atomic_t count;
struct uts_namespace *uts_ns;
struct ipc_namespace *ipc_ns;
struct mnt_namespace *mnt_ns;
struct pid_namespace *pid_ns;
struct net *net_ns;
};

1.2 建立命名空间的方式

1.2.1. clone建立新进程时，能够设置选项，使新进程与父进程共享命名空间，仍是新进程建立一个独立的命名空间.

1.2.2. unshare系统调用，能够将进程的某些部分从父进程分离，其中也包括命名空间。

1.3 PID

PID命名空间按层次组织，在建立一个新的pid namespace，该命名空间中全部的pid都对父命名空间可见，可是子命名空间

看不到父命名空间的pid，所以进程在不一样的pid namespace中具备不一样的pid，只要能看到该进程的namespace都有一个PID。

对于全部的进程来讲，都有两种ID：一个是全局的ID（包含PID、TGID、PGRP、SID），保存在task_struct->pid中；

另外一个是局部的ID，即属于某个特定的命名空间的ID,对应task_struct->pids数组，能够经过task_struct->pids[pid_type]->pid

来找到对应的pid结构。pid_type：PIDTYPE_PID，PIDTYPE_PGID，PIDTYPE_SID，PIDTYPE_MAX

struct pid
{
atomic_t count; //计数
unsigned int level; //对应多少namespace
struct hlist_head tasks[PIDTYPE_MAX]; //指回task_struct
struct rcu_head rcu; //rcu是将全部struct pid组织起来的辅助结构
struct upid numbers[1]; //numbers成员中存储的是struct upid结构，该结构是pid与pid_namespace相关联的结构。
}

upid
struct upid {
int nr;
struct pid_namespace *ns;
struct hlist_node pid_chain;
};

全部的upid都保存在一个散列表中，经过upid->pid_chain组织。

static struct hlist_head *pidhash;
};
pid_namespace
struct pid_namespace {
struct kref kref;
struct pidmap pidmap[PIDMAP_ENTRIES]; //保存该namespace中pid的分配状况
int last_pid; //保存上一个分配的pid
struct task_struct *child_reaper; //每一个namespace都有一个进程来扮演Linux中init进程的角色,child_reaper指向这个进程
struct kmem_cache *pid_cachep;
unsigned int level; //表示该namespace在整个命名空间的层次
struct pid_namespace *parent; //父namespace
struct vfsmount *proc_mnt;
struct bsd_acct_struct *bacct;
};

2.cgroups：限制被namespaces隔离起来的资源，为资源设置权重，计算使用量，操控任务启停。

特色：cgroups经过伪文件系统方式实现

组织管理操做单元细粒度到线程级别，用户也能够建立销毁cgroup实现资源再分配

资源管理的功能都已子系统方式实现，接口统一

子任务建立之初与副任务同出一个cgroups

做用：资源限制：对任务使用的资源总额进行限制

优先级分配：经过分配CPU时间片，IO带宽等来控制任务优先级

资源统计：CPU使用时长，内存用量等

任务控制：任务挂起，恢复等

相互关系： cgroups具备层级结构，每一个层级经过绑定对应的子系统进行资源控制，cgoups层级能够包含0或1个子节点。子节点继承

父节点挂载的子系统。

1.一个子系统能附加到多个层级，前提是目标层级只有惟一一个子系统

2.一个层级能够附加多个子系统

3.一个任务能够是多个cgroup的成员，可是这些cgroup必须在不一样的层级。

4.系统中的进程（任务）建立子进程（任务）时，该子任务自动成为其父进程所在 cgroup 的成员。而后可根据须要将该子任务移动到不

同的 cgroup 中，但开始时它老是继承其父任务的cgroup。

Cgroups子系统：

blkio -- 这个子系统为块设备设定输入/输出限制，好比物理设备（磁盘，固态硬盘，USB 等等）。

cpu -- 这个子系统使用调度程序提供对 CPU 的 cgroup 任务访问。

cpuacct -- 这个子系统自动生成 cgroup 中任务所使用的 CPU 报告。

cpuset -- 这个子系统为 cgroup 中的任务分配独立 CPU（在多核系统）和内存节点。

devices -- 这个子系统可容许或者拒绝 cgroup 中的任务访问设备。

freezer -- 这个子系统挂起或者恢复 cgroup 中的任务。

memory -- 这个子系统设定 cgroup 中任务使用的内存限制，并自动生成由那些任务使用的内存资源报告。

net_cls -- 这个子系统使用等级识别符（classid）标记网络数据包，可容许 Linux 流量控制程序（tc）识别从具体 cgroup 中生成的数据包。

ns -- 名称空间子系统。

cgroups数据结构：

task_struct中与cgroups有关的：

struct css_set *cgroups;

struct list_head cg_list;

其中cgroups指针指向了一个css_set结构，而css_set存储了与进程相关的cgroups信息。cg_list是一个list_head结构，用于将连到同一个css_set的进程组织成一个链表。

struct css_set {

atomic_t refcount; //该css_set的引用数

struct hlist_node hlist; //用于把全部css_set组织成一个hash表，这样内核能够快速查找特定的css_set

struct list_head tasks; //指向全部连到此css_set的进程连成的链表

struct list_head cg_links; //指向一个由struct cg_cgroup_link连成的链表

struct cgroup_subsys_state *subsys[CGROUP_SUBSYS_COUNT]; //subsys是一个数组，存储一组指向cgroup_subsys_state的指针。

};

一个cgroup_subsys_state就是进程与一个特定子系统相关的信息。经过这个指针数组，进程就能够得到相应的cgroups控制信息了

struct cgroup_subsys_state {

struct cgroup *cgroup;

atomic_t refcnt;

unsigned long flags;

struct css_id *id;

};

cgroup指针指向了一个cgroup结构，也就是进程属于的cgroup。进程受到子系统的控制，其实是经过加入到特定的cgroup实现的，由于cgroup在特定的层级上，而子系统又是附加到层级上的。经过以上三个结构，进程就能够和cgroup链接起来了：task_struct->css_set->cgroup_subsys_state->cgroup。

cgroup和css_set是一个多对多的关系，一个进程对应一个css_set，一个css_set就存储了一组进程（有可能被几个进程共享）跟各个子系统相关的信息，并且一个进程能够同时属于几个cgroup，只要这些cgroup不在同一个层级。一个cgroup中能够有多个进程，并且这些进程的css_set不必定都相同，由于有些进程可能还加入了其余cgroup。

struct cg_cgroup_link {

struct list_head cgrp_link_list;

struct cgroup *cgrp;

struct list_head cg_link_list;

struct css_set *cg;

}；

cg_cgroup_link做为一个中间结构将 cgroup和css_set联系起来，cgrp_link_list和cg_link_list分别指向cgroup和css_set所在的链表。每一个进程都会指向一个css_set，与这个css_set关联的全部进程都会链入到css_set->tasks链表，cgroup经过中间结构cg_cgroup_link来寻找全部与之关联的全部css_set，从而能够获得与cgroup关联的全部进程。

mount -t cgroup 查看当前系统全部根层级，进入到跟层级目录下，mkdir [名称]就能够建立一个cgroup，新建立的cgroup下的tasks文件为空的，表示当前cgroup无进程，根层级目录下的tasks文件内包含当前系统全部进程。