进程与线程--原理

时间 2019-11-09

标签进程线程原理繁體版

原文原文链接

所谓白话便是将事物的原理用通俗易懂的语言表达出来，接下来咱们就说一说咱们平时用到的进程与线程在操做系统中是如何被管理以及调度的。算法

其实操做系统本质上的意义就是如何让咱们更方便的来使用这些如 cpu、内存、网卡等物理设施，给咱们的生活带来便利或更优质的生活享受。如咱们打开电脑后，启动操做系统，安装应用就能够在线看电视或者打游戏。或者对于咱们技术人员来说，在咱们的开发过程当中，假如咱们要读取硬盘中的数据，咱们直接调用read系统调用就能够，咱们无需去关心磁头的移动与柱面扇区如何移动才能读出数据。或者咱们分配内存，咱们直接调用malloc系统调用就能够分配内存，咱们也无需关心内存条到底还有多少空闲。浏览器

因此操做系统就是将咱们从那些琐碎的重复的劳动中解放出来，方便咱们的生活与工做。那么咱们开始今天的话题，先说一下进程，而后再说一线程，最后再总结一下进程与线程的区别与应用方面的考虑。数据结构

什么是进程？多线程

咱们的计算机要为咱们的生活服务，咱们一边写着博客，同时还得聊着QQ，还得帮我收取邮件，咱们但愿计算机同时能帮咱们作到这些事情，那么就有了进程。进程就是在操做系统中作某件事情的一段程序的实例，如今个人电脑里就运行着浏览器进程、QQ客户端进程、邮件进程还有其余操做系统的一些基础进程，因此计算机能在我写博客的时候收取邮件还能发送QQ消息，固然对于cpu来说，某一个时刻只会运行一个进程，可是咱们的操做系统有任务调度程序，让cpu根据调度来在这些进程之间不断的切换。在一秒钟以内，操做系统就会在不一样的进程中切换不少次，这也是对于咱们人来说，感受就像是计算机在同时作这几件事情，但对于cpu来说他是在不一样进程之间的执行来回切换。函数

进程在操做系统中是如何管理的？操作系统

咱们经过上面知道了，操做系统中运行着各类不一样任务的进程，有收发邮件的、有聊天的、有浏览器的，可是操做系统是如何让这些进程不断的来回切换而且是如何切换的呢。线程

咱们知道其实计算机的就是在不断的进行计算，对数据进行处理。cpu发送指令从内存中读取程序指令而后经过总线放入不一样的寄存器，而后再从寄存器中读入cpu进行运算而后再放入寄存器或写入内存。指针

其实一切的程序都是如此运行，当在操做系统中运行一个程序就是启动一个进程，在操做系统中运行一个进程的时候，若是是第一次运行，操做系统就会为此进程分配内存空间，这些空间包括不可更改的指令空间（文本段），就是存储要运行的程序的指令的；数据段，变量的值都存在这里；还有栈（堆栈）空间，这里存放在调用函数时局部变量在计算过程当中的变化以及结果，随着函数调用或结束，这里的空间也在增长或缩小；还有堆空间，程序中动态分配的内存空间将分配在这里。然后操做系统将指令空间的内存地址放入寄存器，由cpu开始读取执行，沿着代码段执行，在执行过程当中为了保存结果或执行进度将变量的值或函数的调用过程放入相应的空间以及指令的执行进度放入相应的寄存器。游戏

在操做系统中系统维护着一张进程表，这里存储着系统中运行的全部进程，每一项进程都占用一个进程表项。这个表项数据结构中存储着进程的不少重要信息，如在系统调度让cpu运行下一的进程时，把当前进程运行时的镜像所有保存下来，为了当再次运行此进程时恢复当时运行的场景。好比程序计算器（程序执行到哪）堆栈指针（执行过程当中的变相值）各寄存器中的值文件的打开状态等一切运行时的信息，还有进程自己的一些信息好比运行此进程的账号以及优先级之类的属性信息。进程

因此，操做系统是根据调度程序来决定运行哪一个进程，当要运行某个进程时，会把当时正在运行的进程时的一块儿用于恢复当时场景的数据都保存在系统维护的进程表中对应的进程信息存储的数据结构中，当调度程序再次运行此进程时，将保存的这些信息改放入寄存器的放入对应的起存期，恢复到堆栈的恢复到堆栈，继续执行上一次运行指令的下一次指令。

什么是线程？

之因此会有线程，是由于在进程中运行多种活动时，当进行某一项活动时好比读取磁盘数据，此时进程就处于阻塞状态，整个事情的进展就处于暂时的中止状态，若是咱们将进程中的多种工做分派给不一样的线程去处理，好比一个线程在向内存中写入数据，一个线程在分析数据，这样就不会在读取数据的时候没法分析数据了。这就是为何会有线程的概念。

其次线程能够共享进程中的资源好比打开的文件、全局变量等公共资源，另外线程比进程更轻量级，建立和销毁比进程要快10-100倍。这两个也是线程之因此存在的缘由。

线程在进程的内存空间中有本身的内存空间用来临时保存本身的堆栈或寄存器内容或程序计数器，用来恢复继续运行，进程中不一样的线程不像不一样的进程之间存在着很大的独立性，全部线程都有彻底同样的地址空间，这意味着线程之间共享全局变量。因为各个线程均可以访问进程地址空间中的任意内存地址，因此一个线程能够修改读取甚至删除另外一线程的堆栈，线程之间是没有保护的。由于不一样的线程确定来自同一进程也就是同一用户，他们之间不会有敌意，他们之间还能够共享打开的文件集、子进程、以及相关信号。而不一样的线程之间的通讯就复杂的多，同一进程中的多个线程是相互信任的，而不一样的进程之间是不信任的。

其实线程就是进程中的又一执行单位，进程中不一样的线程只是运行的进度不一样，其余都是能够共享的。

进程空间地址存储的内容	线程空间地址中存在的内容
地址空间	程序计数器
全局变量	寄存器
打开的文件集	堆栈
子进程	状态
帐户信息
优先级
信号

那么何时该使用线程？由于咱们知道线程是在进程中的运行时不断交替运行的单位，当某一线程遇到io阻塞，这个时候让当前线程等待总线上的数据，保存当前线程的现场（堆栈和寄存器），运行另外一线程。因此当某项工做大多时进行的都是cpu运算，那么多线程显然毫无心义，并且还会增长线程之间切换保存线程的额外工做，因此cpu密集型的工做不适合用线程。可是当工做中有运算和iO处理工做时，显然将这些工做分配给多线程是能够不浪费cpu宝贵的运算时间，让cpu忙起来提升工做效率的好办法。

那么操做系统如何管理线程的呢？咱们应该如何利用这种机制呢？

第一种是操做系统不知道进程中运行着多线程，咱们在用户空间调用库函数在进程中运行和调度多个线程，经过维护一张线程表来管理这些线程，操做系统拿这个进程就当是普通的进程。

这种方式的优势就是操做系统计算不支持多线程机制，咱们也能够照样使用多线程来高效的完成咱们的工做。咱们能够在进程中经过本身的算法来调度线程的运行，并且在进程中建立或销毁线程比在操做系统内核空间中要节约资源，无需像在内核中发生大量的上下文切换以及现场保存工做。

这种方式的缺点就是因为操做系统并不知道进程中的多线程，因此当进程中的某一个线程发生系统调用陷入系统内核中时，操做系统会将这个进程阻塞，运行其余进程，它不知道也不会管该进程中是否有其余线程在运行着。还有就是在用户空间中运行多线程，当某一个多线程一直占用cpu时，在当前进程的运行时刻，因为用户空间中没有时钟机制，因此其余线程只能等待，无能为力。

第二种就是操做系统支持多线程，那么进程中的线程就交由操做系统来管理，当进程中某一线程发生阻塞时，操做系统会选择此进程中的另外一线程继续运行，并且当某一线程占用cpu时间过长时，操做系统也会根据时钟阻塞线程，这也算是相对于用户空间来讲的优势。可是毕竟是在内核中由操做系统来管理线程，不管线程的建立仍是管理消耗的资源都比在用户空间大，这也是内核管理多线程的缺点。

前面两种模式都各有优缺点，若是能将其结合到一块儿，各取其优势，应该会更好。

一种作法是使用内核级线程，而后将用户级线程与内核级线程多路复用起来。这样，用户就能够决定有多少个用户级线程和多少内核级线程多路复用，这样会更加灵活。