Linux Namespaces机制——实现

时间 2019-12-07

原文原文链接

转自：http://www.cnblogs.com/lisperl/archive/2012/05/03/2480573.htmlhtml

因为Linux内核提供了PID，IPC，NS等多个Namespace，一个进程可能属于多个Namespace。为了task_struct的精简，内核引入了struct nsproxy来统一管理进程所属的Namespace，在task_struct中只需存一个指向struct nsproxy的指针就好了。struct nsproxy定义以下：函数

struct nsproxy {atom

atomic_t count;spa

struct uts_namespace *uts_ns;.net

struct ipc_namespace *ipc_ns;代理

struct mnt_namespace *mnt_ns;指针

struct pid_namespace *pid_ns;htm

struct net *net_ns;blog

};进程

从定义能够看出，nsproxy存储了一组指向各个类型Namespace的指针，为进程访问各个Namespace起了一个代理的做用。因为可能有多个进程所在的Namespace彻底同样，nsproxy能够在进程间共享，count字段负责记录该结构的引用数。

系统预约义了一个init_nsproxy，用做默认的nsproxy。

struct nsproxy init_nsproxy = {

.count = ATOMIC_INIT(1),

.uts_ns = &init_uts_ns,

#if defined(CONFIG_POSIX_MQUEUE) || defined(CONFIG_SYSVIPC)

.ipc_ns = &init_ipc_ns,

#endif

.mnt_ns = NULL,

.pid_ns = &init_pid_ns,

#ifdef CONFIG_NET

.net_ns = &init_net,

#endif

};

其中除了mnt_ns外均指向系统默认的Namespace。

内核定义了一组函数来管理nsproxy：

task_nsproxy用于从task_struct指针在RCU保护下得到其中的nsproxy指针。

put_nsproxy用于减小一个nsproxy的引用数。

get_nsproxy用于增长一个nsproxy的引用数。

create_nsproxy用于分配一个新的nsproxy结构。

下面咱们来看系统在clone时的处理。系统调用clone是经过sys_clone实现的，而sys_clone又是经过内核函数do_fork实现的，而do_fork大部分工做又是在copy_process中作的。在copy_process中，有这样的代码：

if ((retval = copy_namespaces(clone_flags, p)))

goto bad_fork_cleanup_mm;

这里咱们回过头去看copy_namespaces的代码

int copy_namespaces(unsigned long flags, struct task_struct *tsk)

{

struct nsproxy *old_ns = tsk->nsproxy;

struct nsproxy *new_ns;

int err = 0;

if (!old_ns)

return 0;

get_nsproxy(old_ns);

if (!(flags & (CLONE_NEWNS | CLONE_NEWUTS | CLONE_NEWIPC |

CLONE_NEWPID | CLONE_NEWNET)))

return 0;

if (!capable(CAP_SYS_ADMIN)) {

err = -EPERM;

goto out;

}

* CLONE_NEWIPC must detach from the undolist: after switching

* to a new ipc namespace, the semaphore arrays from the old

* namespace are unreachable. In clone parlance, CLONE_SYSVSEM

* means share undolist with parent, so we must forbid using

* it along with CLONE_NEWIPC.

if ((flags & CLONE_NEWIPC) && (flags & CLONE_SYSVSEM)) {

err = -EINVAL;

goto out;

}

new_ns = create_new_namespaces(flags, tsk, tsk->fs);

if (IS_ERR(new_ns)) {

err = PTR_ERR(new_ns);

goto out;

}

tsk->nsproxy = new_ns;

out:

put_nsproxy(old_ns);

return err;

}

该函数首先检查flags，若是没有指定任何一个须要新建Namespace的flag，直接返回0。不然，作相应的权能检查，而后调用create_new_namespaces为进程建立新的Namespace。

咱们再来看create_new_namespaces的代码

static struct nsproxy *create_new_namespaces(unsigned long flags,

struct task_struct *tsk, struct fs_struct *new_fs)

{

struct nsproxy *new_nsp;

int err;

new_nsp = create_nsproxy();

if (!new_nsp)

return ERR_PTR(-ENOMEM);

new_nsp->mnt_ns = copy_mnt_ns(flags, tsk->nsproxy->mnt_ns, new_fs);

if (IS_ERR(new_nsp->mnt_ns)) {

err = PTR_ERR(new_nsp->mnt_ns);

goto out_ns;

}

new_nsp->uts_ns = copy_utsname(flags, tsk->nsproxy->uts_ns);

if (IS_ERR(new_nsp->uts_ns)) {

err = PTR_ERR(new_nsp->uts_ns);

goto out_uts;

}

new_nsp->ipc_ns = copy_ipcs(flags, tsk->nsproxy->ipc_ns);

if (IS_ERR(new_nsp->ipc_ns)) {

err = PTR_ERR(new_nsp->ipc_ns);

goto out_ipc;

}

new_nsp->pid_ns = copy_pid_ns(flags, task_active_pid_ns(tsk));

if (IS_ERR(new_nsp->pid_ns)) {

err = PTR_ERR(new_nsp->pid_ns);

goto out_pid;

}

new_nsp->net_ns = copy_net_ns(flags, tsk->nsproxy->net_ns);

if (IS_ERR(new_nsp->net_ns)) {

err = PTR_ERR(new_nsp->net_ns);

goto out_net;

}

return new_nsp;

out_net:

if (new_nsp->pid_ns)

put_pid_ns(new_nsp->pid_ns);

out_pid:

if (new_nsp->ipc_ns)

put_ipc_ns(new_nsp->ipc_ns);

out_ipc:

if (new_nsp->uts_ns)

put_uts_ns(new_nsp->uts_ns);

out_uts:

if (new_nsp->mnt_ns)

put_mnt_ns(new_nsp->mnt_ns);

out_ns:

kmem_cache_free(nsproxy_cachep, new_nsp);

return ERR_PTR(err);

}
该函数首先为进程分配一个新的nsproxy（由于有新的Namespace建立），而后调用各个Namespace相关的函数来为进程一一建立新的Namespace（若是flags指定了的话）。具体的各个Namespace相关的建立函数比较复杂，与各自实现相关，就不在这里分析了。

咱们再回到copy_process中，有如下代码：

if (pid != &init_struct_pid) {

retval = -ENOMEM;

pid = alloc_pid(p->nsproxy->pid_ns);

if (!pid)

goto bad_fork_cleanup_io;

if (clone_flags & CLONE_NEWPID) {

retval = pid_ns_prepare_proc(p->nsproxy->pid_ns);

if (retval < 0)

goto bad_fork_free_pid;

}

因为从do_fork中调用copy_process时，pid参数是NULL，因此这里确定知足第一个if条件。在if内，首先为进程在其所在的Namespace分配pid，而后判断clone时是否set了CLONE_NEWPID，若是设定了就作进一步的处理。这两个函数都是pid Namespace相关的代码，这里就不去分析了。

而后有如下代码：

if (current->nsproxy != p->nsproxy) {

retval = ns_cgroup_clone(p, pid);

if (retval)

goto bad_fork_free_pid;

}

因为咱们分析的是设定了clone相关flags的状况，那这个if条件确定知足。在if里面，调用了ns_cgroup_clone，即为不一样nsproxy新建了一个cgroup（关于cgroups的分析能够参加本博客前面的文章：http://www.cnblogs.com/lisperl/archive/2012/04/26/2471776.html）。这里就和以前关于cgroups ns子系统的分析关联起来了，内核这里其实是利用cgroups ns子系统对进程作了一个自动分类，相同nsproxy（即全部Namespace都相同的进程）的进程在一个cgroup，一旦经过clone建立新的Namespace，就会在当前cgroup下建立一个新的cgroup。这样以来，经过cgroup文件系统，在挂载ns 子系统的目录下，咱们就能够清楚地看出Namespace的层次关系。

你们看到这里是否是会有疑问，使用clone相应flags建立新的Namespace是否是必需要cgroups ns子系统的支持？做者能够负责任地告诉你：不须要。

在nsproxy.h中有如下代码：

#ifdef CONFIG_CGROUP_NS
int ns_cgroup_clone(struct task_struct *tsk, struct pid *pid);
#else
static inline int ns_cgroup_clone(struct task_struct *tsk, struct pid *pid)
{
return 0;
}
#endif

即在没有cgroups的状况下，ns_cgroup_clone实现是不一样的。

做者曰：这里只是对Linux Namespaces机制的实现作了一个大致的上分析，具体到各个Namespace的实现并无去讲，由于很是复杂，尤为是Network Namespace。

1. Linux Namespaces机制
2. Linux Switching – Interconnecting Namespaces
3. linux信号实现机制
4. Openstack-Namespaces
5. Control group namespaces
6. 浅谈Namespaces
7. binder实现机制
8. Linux系统实现Redis哨兵机制
9. Linux管道的实现机制
10. ConcurrentHashMap实现机制
更多相关文章...
• 现实生活中的 XML - XML 教程
• Hibernate实现增删改查 - Hibernate教程
• 漫谈MySQL的锁机制
• ☆基于Java Instrument的Agent实现