关于fork( )函数父子进程返回值的问题

时间 2019-12-01

标签关于 fork 函数父子进程返回问题栏目 Apache 繁體版

原文原文链接

fork()是linux的系统调用函数sys_fork()的提供给用户的接口函数，fork()函数会实现对中断int 0x80的调用过程并把调用结果返回给用户程序。linux

fork()的函数定义是在init/main.c中（这一点我感到奇怪，由于大多数系统调用的接口函数都会单独封装成一个.c文件，而后在里面进行嵌入汇编展开执行int 0x80中断从而执行相应的系统调用，如/lib/close.c中：数据结构

1 #define __LIBRARY__
2 #include <unistd.h>
3 
4 _syscall1(int,close,int,fd)

但fork()函数确实在mai.c中进行嵌入汇编展开定义的，呃，多是我目前尚未彻底理解这一部分，但这就是我目前的认识）函数

如下是init/main.c中fork()函数的嵌入汇编定义：this

1 static inline _syscall0(int,fork)

其中_syscall0()是include/linux/sys/unistd.h中的内嵌宏代码，它以嵌入汇编的形式调用linux的系统调用中断int 0x80。spa

 1 #define _syscall0(type,name) \
 2 type name(void) \
 3 { \
 4 long __res; \
 5 __asm__ volatile ("int $0x80" \
 6     : "=a" (__res) \
 7     : "0" (__NR_##name)); \
 8 if (__res >= 0) \
 9     return (type) __res; \
10 errno = -__res; \
11 return -1; \
12 }

对其进行宏展开，即获得fork()函数的代码：操作系统

 1 int fork(void) 
 2 { 
 3     long __res; 
 4     __asm__ volatile ("int $0x80" 
 5             : "=a" (__res)        //eax保存的是int 0x80中断调用的返回值
 6             : "0" (__NR_##fork));    //同时eax也是int 0x80中断调用的系统调用功能号
 7     if (__res >= 0) 
 8             return (type) __res;        //返回int 0x80的返回值做为fork()函数的返回值
 9     errno = -__res; 
10     return -1; 
11 }

理解这个函数的关键，就在于理解系统调用中断int 0x80。指针

在main.c进行初始化时，设置好了int 0x80的系统调用中断门。code

 1 void main(void)
 2 {
 3         ......
 4     sched_init();        //在sched_init()中设置了系统调用中断int 0x80的中断门
 5         ......
 6     move_to_user_mode();
 7     if (!fork()) {        /* we count on this going ok */
 8         init();
 9     }
10     for(;;) pause();
11 }

sched_init()定义在kernel/sched.c中：orm

1 void sched_init(void)
2 {
3         ......
4     set_system_gate(0x80,&system_call);    //在IDT中设置系统调用中断int 0x80的描述符
5 }

其中，set_system_gate(0x80,&system_call)的宏定义在文件include/asm/system.h中：blog

 1 #define _set_gate(gate_addr,type,dpl,addr) \
 2 __asm__ ("movw %%dx,%%ax\n\t" \
 3     "movw %0,%%dx\n\t" \
 4     "movl %%eax,%1\n\t" \
 5     "movl %%edx,%2" \
 6     : \
 7     : "i" ((short) (0x8000+(dpl<<13)+(type<<8))), \
 8     "o" (*((char *) (gate_addr))), \
 9     "o" (*(4+(char *) (gate_addr))), \
10     "d" ((char *) (addr)),"a" (0x00080000))
11 ......
12 #define set_system_gate(n,addr) \
13     _set_gate(&idt[n],15,3,addr)

其做用也就是填写IDT中int 0x80的中断描述符，中断描述符的格式以下：

输入参数：%0: i(当即数) = 0x8000(0b1000,0000,0000,0000)

　　　　　　　　　　| (dpl<<13)(0b0110,0000,0000,0000)

　　　　　　　　　　| (type<<8)(0b0000,1111,0000,0000)

　　　　　　　　　　= 0b1110,1111,0000,0000

　　　　　　（这里我有个疑问，按照编号%0指的是输出寄存器，虽然这里并无用到输出寄存器，但%0是否依然指的是输出寄存器？）

　　　　　　o(内存变量) =%2: (高四位) *(4+&idt[0x80])

　　　　　　　　　　　　　%1: (低四位)*(&idt[0x80])

　　　　　　%3: d(edx，32位)=&system_callcall

　　　　　　%4: a(eax，32位)=0x0008,0000(0b0000,0000,0000,1000,0000,0000,0000,0000)

汇编语句的执行过程：

1 movw %%dx,%%ax    //ax=dx，即eax的低两个字节等于edx的低两个字节，也就是&system_call的低两个字节
2 movw %0,%%dx        //dx=i(0b1110,1111,0000,0000)，即edx的低两个字节等于i
3 movl %%eax,%1        //*(&idt[0x80]) = 0000,0000,0000,1000  &system_call(低两个字节)
4 movl %%edx,%2        //*(4+&idt[0x80]) = &system_call(高两个字节) 1110,1111,0000,0000

这样，IDT表中的int 0x80的中断门描述符就填写好了，以下所示：

（这里我还存在一个疑问，就是int 0x80中断门描述符的高四位中的第8位填充的是1，但表中要求是写0）

int 0x80的中断调用是一个有趣的过程：

首先应用程序经过库函数fork()调用系统调用sys_fork()，因为应用程序运行在特权级3，是不能访问内核代码的中断处理函数system_call()以及system_call()要进一步调用的具体系统调用函数sys_fork()，因此在int 0x80初始化在填写IDT表中int 0x80的描述符时，将其DPL置为3，这样应用程序得以进入内核，而在跳转到中断处理函数system_call()时，将对应的选择符置为0000,0000,0000,1000，即cs=0b0000,0000,0000,1000，表示访问特权级为0、使用全局描述符表GDT中的第2个段描述符项（内核代码段），即访问的基地址是内核代码段，偏移地址是system_call()的代码，使其又变为以最高特权级0访问system_call()函数，这样就完成了从应用程序到内核代码段的转移。

而且在执行int 0x80中断时，会发生堆栈的切换，即从用户栈切换到用户的内核堆栈。具体过程是：

处理器从当前执行任务的TSS段中获得中断处理过程使用的用户内核堆栈的段选择符和栈指针（例如tss.ss0、tss.esp0）。而后将应用程序的用户栈的段选择符和栈指针压栈，接着将EFLAGS、CS、EIP的值也压栈，而此刻EIP的值就是fork()函数中嵌入汇编int 0x80后的下一条指令的地址，即指令：

 5             : "=a" (__res)

 1 int fork(void) 
 2 { 3 long __res; 4 __asm__ volatile ("int $0x80" 5 : "=a" (__res) //eax保存的是int 0x80中断调用的返回值 6 : "0" (__NR_##fork)); //同时eax也是int 0x80中断调用的系统调用功能号 7 if (__res >= 0) 8 return (type) __res; //返回int 0x80的返回值做为fork()函数的返回值 9 errno = -__res; 10 return -1; 11 }
这一点对于理解为何fork()函数返回时子进程的返回值是0很是关键。
接下来咱们要关注下system_call的执行过程。system_call函数在kernel/system_call.s中：

 1 nr_system_calls = 72
 2 
 3 bad_sys_call:
 4     movl $-1,%eax
 5     iret
 6 
 7 reschedule:
 8     pushl $ret_from_sys_call
 9     jmp schedule
10 
11 system_call:
12     cmpl $nr_system_calls-1,%eax    #检查eax中的功能号是否有效（在给定的范围内）
13     ja bad_sys_call    #跳转到bad_sys_call，即eax=-1，中断返回
14     push %ds
15     push %es
16     push %fs
17     pushl %edx
18     pushl %ecx        # 将edx,ecx,ebx压栈，做为system_call的参数
19     pushl %ebx
20     movl $0x10,%edx        # ds,es用于内核数据段
21     mov %dx,%ds
22     mov %dx,%es
23     movl $0x17,%edx        # fs用于用户数据段
24     mov %dx,%fs
25     call sys_call_table(,%eax,4)    # 跳转到对应的系统调用函数中，此处是sys_fork()
26     pushl %eax    # 把系统调用的返回值入栈
27     movl current,%eax    # 取当前任务数据结构地址->eax
28     cmpl $0,state(%eax)        # 判断当前任务的状态
29     jne reschedule    # 不在就绪状态(state != 0)就去执行调度程序schedule()
30     cmpl $0,counter(%eax)        # 判断当前任务时间片是否已用完
31     je reschedule    # 时间片已用完(counter = 0)也去执行调度程序schedule()
32 ret_from_sys_call:    # 执行完调度程序schedule()返回或没有执行调度程序直接到该处
33     movl current,%eax        # task[0] cannot have signals
34     cmpl task,%eax    # 判断当前任务是不是初始任务task0
35     je 3f    # 若是是没必要对其进行信号量方面的处理，直接退出中断
36     cmpw $0x0f,CS(%esp)        # 判断调用程序是不是用户任务
37     jne 3f    # 若是不是，直接退出中断
38     cmpw $0x17,OLDSS(%esp)        # 判断是否为用户代码段的选择符
39     jne 3f    # 若是不是，则说明是某个中断服务程序跳转到这里，直接退出中断
40     movl signal(%eax),%ebx    # 处理当前用户任务中的信号
41     movl blocked(%eax),%ecx
42     notl %ecx
43     andl %ebx,%ecx
44     bsfl %ecx,%ecx
45     je 3f
46     btrl %ecx,%ebx
47     movl %ebx,signal(%eax)
48     incl %ecx
49     pushl %ecx
50     call do_signal
51     popl %eax
52 3:    popl %eax    # eax含有系统调用的返回值
53     popl %ebx
54     popl %ecx
55     popl %edx
56     pop %fs
57     pop %es
58     pop %ds
59     iret    # 中断返回

这里说明了系统调用int 0x80的中断处理过程。每次执行完对应的系统调用，操做系统都会检查本次调用进程的状态。若是因为上面的系统调用操做或其余状况而使进程的状态从执行态变成了其余状态，或者因为进程的时间片已经用完，则调用进程调度函数schedule()。schedule()也是个有趣的函数，schedule()会从就绪队列中选择一个就绪进程，将此就绪进程与当前进程执行状态切换，而跳转到新的进程中去（即选中的就绪进程），只有当schedule()执行进程切换，再次切换回当前进程时，这次的中断调用int 0x80才会继续返回执行，进行信号处理，并中断返回。对于schedule()函数的理解，也是理解为何fork()函数父子进程返回值不一样的关键点。

接下来看一下系统调用sys_fork()，它定义在kernel/system_call.s中：

 1 sys_fork:
 2     call find_empty_process    # 调用find_empty_process()
 3     testl %eax,%eax    # 在eax中返回进程号pid。若返回负数则退出
 4     js 1f
 5     push %gs
 6     pushl %esi
 7     pushl %edi
 8     pushl %ebp
 9     pushl %eax
10     call copy_process    # 调用c函数 copy_process()
11     addl $20,%esp    # 丢弃这里全部压栈内容
12 1:    ret

其中，find_empty_process()和copy_process()在kernel/fork.c中定义：

 1 int copy_mem(int nr,struct task_struct * p)
 2 {
 3     unsigned long old_data_base,new_data_base,data_limit;
 4     unsigned long old_code_base,new_code_base,code_limit;
 5 
 6     code_limit=get_limit(0x0f);
 7     data_limit=get_limit(0x17);
 8     old_code_base = get_base(current->ldt[1]);
 9     old_data_base = get_base(current->ldt[2]);
10     if (old_data_base != old_code_base)
11         panic("We don't support separate I&D");
12     if (data_limit < code_limit)
13         panic("Bad data_limit");
14     new_data_base = new_code_base = nr * 0x4000000;
15     p->start_code = new_code_base;
16     set_base(p->ldt[1],new_code_base);
17     set_base(p->ldt[2],new_data_base);
18     if (copy_page_tables(old_data_base,new_data_base,data_limit)) {    //复制当前进程（父进程）的页目录表项和页表项做为子进程的页目录表项和页表项，则子进程共享父进程的内存页面
19         printk("free_page_tables: from copy_mem\n");
20         free_page_tables(new_data_base,data_limit);
21         return -ENOMEM;
22     }
23     return 0;
24 }
25 
26 /*
27  *  Ok, this is the main fork-routine. It copies the system process
28  * information (task[nr]) and sets up the necessary registers. It
29  * also copies the data segment in it's entirety.
30  */
31 int copy_process(int nr,long ebp,long edi,long esi,long gs,long none,
32         long ebx,long ecx,long edx,
33         long fs,long es,long ds,
34         long eip,long cs,long eflags,long esp,long ss)    //该函数的参数是进入系统调用中断处理过程(system_call.s)开始，直到sys_fork()和调用copy_process()前时逐步压入栈的各寄存器的值，因此新建子进程的状态会保持为父进程即将进入中断过程前的状态
35 {
36     struct task_struct *p;
37     int i;
38     struct file *f;
39 
40     p = (struct task_struct *) get_free_page();
41     if (!p)
42         return -EAGAIN;
43     task[nr] = p;
44     *p = *current;    /* NOTE! this doesn't copy the supervisor stack */
45     p->state = TASK_UNINTERRUPTIBLE;    //先将新进程的状态置为不可中断等待状态，以防止内核调度其执行
46     p->pid = last_pid;    //新进程号，由find_empty_process()获得
47     p->father = current->pid;
48     p->counter = p->priority;
49     p->signal = 0;
50     p->alarm = 0;
51     p->leader = 0;        /* process leadership doesn't inherit */
52     p->utime = p->stime = 0;
53     p->cutime = p->cstime = 0;
54     p->start_time = jiffies;
55     p->tss.back_link = 0;
56     p->tss.esp0 = PAGE_SIZE + (long) p;    //任务内核栈指针指向系统给任务结构p分配的1页新内存的顶端
57     p->tss.ss0 = 0x10;    //内核态栈的段选择符（与内核数据段相同）
58     p->tss.eip = eip;
59     p->tss.eflags = eflags;
60     p->tss.eax = 0;    //这是当fork()返回时新进程会返回0的缘由所在
61     p->tss.ecx = ecx;
62     p->tss.edx = edx;
63     p->tss.ebx = ebx;
64     p->tss.esp = esp;
65     p->tss.ebp = ebp;
66     p->tss.esi = esi;
67     p->tss.edi = edi;
68     p->tss.es = es & 0xffff;
69     p->tss.cs = cs & 0xffff;
70     p->tss.ss = ss & 0xffff;
71     p->tss.ds = ds & 0xffff;
72     p->tss.fs = fs & 0xffff;
73     p->tss.gs = gs & 0xffff;
74     p->tss.ldt = _LDT(nr);
75     p->tss.trace_bitmap = 0x80000000;
76     if (last_task_used_math == current)
77         __asm__("clts ; fnsave %0"::"m" (p->tss.i387));
78     if (copy_mem(nr,p)) {
79         task[nr] = NULL;
80         free_page((long) p);
81         return -EAGAIN;
82     }
83     for (i=0; i<NR_OPEN;i++)
84         if ((f=p->filp[i]))
85             f->f_count++;
86     if (current->pwd)
87         current->pwd->i_count++;
88     if (current->root)
89         current->root->i_count++;
90     if (current->executable)
91         current->executable->i_count++;
92         //在GDT表中设置新任务TSS段和LDT段描述符项
93     set_tss_desc(gdt+(nr<<1)+FIRST_TSS_ENTRY,&(p->tss));
94     set_ldt_desc(gdt+(nr<<1)+FIRST_LDT_ENTRY,&(p->ldt));
95     p->state = TASK_RUNNING;    /* do this last, just in case */
96         //最后才将新任务置成就绪态，以防万一
97     return last_pid;    //最后返回新进程的pid
98 }

虽然操做系统为新进程在GDT表中设置了它的TSS段和LDT段的描述符项，也为其在线性地址空间设置了它的页目录项和页表项，但因为其页目录项和页表项是复制父进程的，因此内核并不会马上为新进程分配代码和数据内存页。新进程将与父进程共同使用父进程已有的代码和数据内存页面。只有当之后执行过程当中若是其中有一个进程以写方式访问内存时被访问的内存页面才会在写操做前被复制到新申请的内存页面中。而此后父进程和子进程就各有拥有其独立的页面。

这里咱们能够看到，对于父进程来讲，当它使用接口函数fork()引起系统调用，到进入系统调用中断int 0x80执行相应的系统调用中断处理过程(system_call.s)以及调用对应的系统调用函数(sys_fork())，再到可能被schedule()函数调度让出CPU使用权，到最后从新获得CPU使用权从int 0x80中断返回，父进程的返回值就是新建子进程的pid。而子进程当被schedule()函数调度得到CPU的使用权后，它会继续执行int 0x80下面的那条指令，即：

5             : "=a" (__res)
又因为已经将子进程TSS中的eax置为0，因此当子进程被切换入运行态时，将会把子进程TSS段的各寄存器的值做为CPU此时各寄存器的值，而后执行标号5的指令，将eax=0做为中断调用的返回值返回到fork()函数结尾处，因此对于子进程来讲，它的返回值是0。

好累，第一次写博客，终于完成了，用了将近一天。