Python-并发编程

一.背景知识python

  顾名思义,进程即正在执行的一个过程。进程是对正在运行程序的一个抽象。linux

  进程的概念起源于操做系统,是操做系统最核心的概念,也是操做系统提供的最古老也是最重要的抽象概念之一。操做系统的其余全部内容都是围绕进程的概念展开的。nginx

  这里关于操做系统的知识就不说了,有兴趣的能够本身再了解了解web

  PS:即便能够利用的cpu只有一个(早期的计算机确实如此),也能保证支持(伪)并发的能力。将一个单独的cpu变成多个虚拟的cpu(多道技术:时间多路复用和空间多路复用+硬件上支持隔离),没有进程的抽象,现代计算机将不复存在。算法

  必备的理论基础:shell

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#一 操做系统的做用:
     1 :隐藏丑陋复杂的硬件接口,提供良好的抽象接口
     2 :管理、调度进程,而且将多个进程对硬件的竞争变得有序
 
#二 多道技术:
     1. 产生背景:针对单核,实现并发
     ps:
     如今的主机通常是多核,那么每一个核都会利用多道技术
     4 个cpu,运行于cpu1的某个程序遇到io阻塞,会等到io结束再从新调度,会被调度到 4
     cpu中的任意一个,具体由操做系统调度算法决定。
     
     2. 空间上的复用:如内存中同时有多道程序
     3. 时间上的复用:复用一个cpu的时间片
        强调:遇到io切,占用cpu时间过长也切,核心在于切以前将进程的状态保存下来,这样
             才能保证下次切换回来时,能基于上次切走的位置继续运行

二.什么是进程windows

  进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操做系统结构的基础。在早期面向进程设计的计算机结构中,进程是程序的基本执行实体;在当代面向线程设计的计算机结构中,进程是线程的容器。程序是指令、数据及其组织形式的描述,进程是程序的实体。咱们本身在python文件中写了一些代码,这叫作程序,运行这个python文件的时候,这叫作进程。安全

  狭义定义:进程是正在运行的程序的实例(an instance of a computer program that is being executed)。
  广义定义:进程是一个具备必定独立功能的程序关于某个数据集合的一次运行活动。它是操做系统动态执行的基本单元,在传统的操做系统中,进程既是基本的分配单元,也是基本的执行单元。
  举例: 好比py1文件中有个变量a=1,py2文件中有个变量a=2,他们两个会冲突吗?不会的,是否是,由于两个文件运行起来后是两个进程,操做系统让他们在内存上隔离开,对吧。
  进程的特性:
1
2
3
4
5
6
动态性:进程的实质是程序在多道程序系统中的一次执行过程,进程是动态产生,动态消亡的。
并发性:任何进程均可以同其余进程一块儿并发执行
独立性:进程是一个能独立运行的基本单位,同时也是系统分配资源和调度的独立单位;
异步性:因为进程间的相互制约,使进程具备执行的间断性,即进程按各自独立的、不可预知的速度向前推动
结构特征:进程由程序、数据和进程控制块三部分组成。
多个不一样的进程能够包含相同的程序:一个程序在不一样的数据集里就构成不一样的进程,能获得不一样的结果;可是执行过程当中,程序不能发生改变。

  进程与程序的区别:网络

1
2
3
4
5
程序是指令和数据的有序集合,其自己没有任何运行的含义,是一个静态的概念。
而进程是程序在处理机上的一次执行过程,它是一个动态的概念。
程序能够做为一种软件资料长期存在,而进程是有必定生命期的。
程序是永久的,进程是暂时的。
举例:就像qq同样,qq是咱们安装在本身电脑上的客户端程序,其实就是一堆的代码文件,咱们不运行qq,那么他就是一堆代码程序,当咱们运行qq的时候,这些代码运行起来,就成为一个进程了。

  注意:同一个程序执行两次,就会在操做系统中出现两个进程,因此咱们能够同时运行一个软件,分别作不一样的事情也不会混乱。好比打开暴风影音,虽然都是同一个软件,可是一个能够播放苍井空,一个能够播放饭岛爱。并发

三.进程调度

  要想多个进程交替运行,操做系统必须对这些进程进行调度,这个调度也不是随即进行的,而是须要遵循必定的法则,由此就有了进程的调度算法。

  先来先服务(FCFS)调度算法是一种最简单的调度算法,该算法既可用于做业调度,也可用于进程调度。FCFS算法比较有利于长做业(进程),而不利于短做业(进程)。由此可知,本算法适合于CPU繁忙型做业,而不利于I/O繁忙型的做业(进程)。

    短做业(进程)优先调度算法(SJ/PF)是指对短做业或短进程优先调度的算法,该算法既可用于做业调度,也可用于进程调度。但其对长做业不利;不能保证紧迫性做业(进程)被及时处理;做业的长短只是被估算出来的。

  时间片轮转(Round Robin,RR)法的基本思路是让每一个进程在就绪队列中的等待时间与享受服务的时间成比例。在时间片轮转法中,须要将CPU的处理时间分红固定大小的时间片,例如,几十毫秒至几百毫秒。若是一个进程在被调度选中以后用完了系统规定的时间片,但又未完成要求的任务,则它自行释放本身所占有的CPU而排到就绪队列的末尾,等待下一次调度。同时,进程调度程序又去调度当前就绪队列中的第一个进程。

  显然,轮转法只能用来调度分配一些能够抢占的资源。这些能够抢占的资源能够随时被剥夺,并且能够将它们再分配给别的进程。CPU是可抢占资源的一种。但打印机等资源是不可抢占的。因为做业调度是对除了CPU以外的全部系统硬件资源的分配,其中包含有不可抢占资源,因此做业调度不使用轮转法。

  在轮转法中,时间片长度的选取很是重要。首先,时间片长度的选择会直接影响到系统的开销和响应时间。若是时间片长度太短,则调度程序抢占处理机的次数增多。这将使进程上下文切换次数也大大增长,从而加剧系统开销。反过来,若是时间片长度选择过长,例如,一个时间片能保证就绪队列中所需执行时间最长的进程能执行完毕,则轮转法变成了先来先服务法。时间片长度的选择是根据系统对响应时间的要求和就绪队列中所容许最大的进程数来肯定的。

    在轮转法中,加入到就绪队列的进程有3种状况:

    一种是分给它的时间片用完,但进程还未完成,回到就绪队列的末尾等待下次调度去继续执行。

    另外一种状况是分给该进程的时间片并未用完,只是由于请求I/O或因为进程的互斥与同步关系而被阻塞。当阻塞解除以后再回到就绪队列。

    第三种状况就是新建立进程进入就绪队列。

    若是对这些进程区别对待,给予不一样的优先级和时间片从直观上看,能够进一步改善系统服务质量和效率。例如,咱们可把就绪队列按照进程到达就绪队列的类型和进程被阻塞时的阻塞缘由分红不一样的就绪队列,每一个队列按FCFS原则排列,各队列之间的进程享有不一样的优先级,但同一队列内优先级相同。这样,当一个进程在执行完它的时间片以后,或从睡眠中被唤醒以及被建立以后,将进入不一样的就绪队列。

    前面介绍的各类用做进程调度的算法都有必定的局限性。如短进程优先的调度算法,仅照顾了短进程而忽略了长进程,并且若是并未指明进程的长度,则短进程优先和基于进程长度的抢占式调度算法都将没法使用。

  而多级反馈队列调度算法则没必要事先知道各类进程所需的执行时间,并且还能够知足各类类型进程的须要,于是它是目前被公认的一种较好的进程调度算法。在采用多级反馈队列调度算法的系统中,调度算法的实施过程以下所述。

    (1) 应设置多个就绪队列,并为各个队列赋予不一样的优先级。第一个队列的优先级最高,第二个队列次之,其他各队列的优先权逐个下降。该算法赋予各个队列中进程执行时间片的大小也各不相同,在优先权愈高的队列中,为每一个进程所规定的执行时间片就愈小。例如,第二个队列的时间片要比第一个队列的时间片长一倍,……,第i+1个队列的时间片要比第i个队列的时间片长一倍。

    (2) 当一个新进程进入内存后,首先将它放入第一队列的末尾,按FCFS原则排队等待调度。当轮到该进程执行时,如它能在该时间片内完成,即可准备撤离系统;若是它在一个时间片结束时还没有完成,调度程序便将该进程转入第二队列的末尾,再一样地按FCFS原则等待调度执行;若是它在第二队列中运行一个时间片后仍未完成,再依次将它放入第三队列,……,如此下去,当一个长做业(进程)从第一队列依次降到第n队列后,在第n 队列便采起按时间片轮转的方式运行。

    (3) 仅当第一队列空闲时,调度程序才调度第二队列中的进程运行;仅当第1~(i-1)队列均空时,才会调度第i队列中的进程运行。若是处理机正在第i队列中为某进程服务时,又有新进程进入优先权较高的队列(第1~(i-1)中的任何一个队列),则此时新进程将抢占正在运行进程的处理机,即由调度程序把正在运行的进程放回到第i队列的末尾,把处理机分配给新到的高优先权进程。

  对于多级反馈队列,windows不太清楚,可是在linux里面能够设置某个进程的优先级,提升了有限级有可能就会多执行几个时间片。

四.并发与并行

  经过进程之间的调度,也就是进程之间的切换,咱们用户感知到的好像是两个视频文件同时在播放,或者音乐和游戏同时在进行,那就让咱们来看一下什么叫作并发和并行

不管是并行仍是并发,在用户看来都是'同时'运行的,无论是进程仍是线程,都只是一个任务而已,真是干活的是cpu,cpu来作这些任务,而一个cpu同一时刻只能执行一个任务

    并发:是伪并行,即看起来是同时运行。单个cpu+多道技术就能够实现并发,(并行也属于并发)

1
2
你是一个cpu,你同时谈了三个女友,每个均可以是一个恋爱任务,你被这三个任务共享要玩出并发恋爱的效果,
应该是你先跟女朋友 1 去看电影,看了一会说:很差,我要拉肚子,而后跑去跟第二个女朋友吃饭,吃了一会说:那啥,我去趟洗手间,而后跑去跟女朋友 3 开了个房,而后在你的基友眼里,你就在和三个女朋友同时在一块儿玩。

    并行:并行:同时运行,只有具有多个cpu才能实现并行

1
将多个cpu必须成高速公路上的多个车道,进程就比如每一个车道上行驶的车辆,并行就是说,你们在本身的车道上行驶,会不影响,同时在开车。这就是并行

  单核下,能够利用多道技术,多个核,每一个核也均可以利用多道技术(多道技术是针对单核而言的

  有四个核,六个任务,这样同一时间有四个任务被执行,假设分别被分配给了cpu1,cpu2,cpu3,cpu4,

  一旦任务1遇到I/O就被迫中断执行,此时任务5就拿到cpu1的时间片去执行,这就是单核下的多道技术

  而一旦任务1的I/O结束了,操做系统会从新调用它(需知进程的调度、分配给哪一个cpu运行,由操做系统说了算),可能被分配给四个cpu中的任意一个去执行

  全部现代计算机常常会在同一时间作不少件事,一个用户的PC(不管是单cpu仍是多cpu),均可以同时运行多个任务(一个任务能够理解为一个进程)。

    启动一个进程来杀毒(360软件)

    启动一个进程来看电影(暴风影音)

    启动一个进程来聊天(腾讯QQ)

  全部的这些进程都需被管理,因而一个支持多进程的多道程序系统是相当重要的

  多道技术概念回顾:内存中同时存入多道(多个)程序,cpu从一个进程快速切换到另一个,使每一个进程各自运行几十或几百毫秒,这样,虽然在某一个瞬间,一个cpu只能执行一个任务,但在1秒内,cpu却能够运行多个进程,这就给人产生了并行的错觉,即伪并行,以此来区分多处理器操做系统的真正硬件并行(多个cpu共享同一个物理内存)

 五.同步\异步\阻塞\非阻塞(重点)

  1.进程状态介绍

  在了解其余概念以前,咱们首先要了解进程的几个状态。在程序运行的过程当中,因为被操做系统的调度算法控制,程序会进入几个状态:就绪,运行和阻塞。

  (1)就绪(Ready)状态

    当进程已分配到除CPU之外的全部必要的资源,只要得到处理机即可当即执行,这时的进程状态称为就绪状态。

  (2)执行/运行(Running)状态当进程已得到处理机,其程序正在处理机上执行,此时的进程状态称为执行状态。

  (3)阻塞(Blocked)状态正在执行的进程,因为等待某个事件发生而没法执行时,便放弃处理机而处于阻塞状态。引发进程阻塞的事件可有多种,例如,等待I/O完成、申请缓冲区不能知足、等待信件(信号)等。

    事件请求:input、sleep、文件输入输出、recv、accept等

    事件发生:sleep、input等完成了

    时间片到了以后有回到就绪状态,这三个状态不断的在转换。

   2.同步异步

    所谓同步就是一个任务的完成须要依赖另一个任务时,只有等待被依赖的任务完成后,依赖的任务才能算完成,这是一种可靠的任务序列。要么成功都成功,失败都失败,两个任务的状态能够保持一致。其实就是一个程序结束才执行另一个程序,串行的,不必定两个程序就有依赖关系。

    所谓异步是不须要等待被依赖的任务完成,只是通知被依赖的任务要完成什么工做,依赖的任务也当即执行,只要本身完成了整个任务就算完成了。至于被依赖的任务最终是否真正完成,依赖它的任务没法肯定,因此它是不可靠的任务序列

1
2
3
好比咱们去楼下的老家肉饼吃饭,饭点好了,取餐的时候发生了一些同步异步的事情。
同步:咱们都站在队里等着取餐,前面有我的点了一份肉饼,后厨作了好久,可是因为同步机制,咱们仍是要站在队里等着前面那我的的肉饼作好取走,咱们才往前走一步。
异步:咱们点完餐以后,点餐员给了咱们一个取餐号码,跟你说,你不用在这里排队等着,去找个地方坐着玩手机去吧,等饭作好了,我叫你。这种机制(等待别人通知)就是异步等待消息通知。在异步消息处理中,等待消息通知者(在这个例子中等着取餐的你)每每注册一个回调机制,在所等待的事件被触发时由触发机制(点餐员)经过某种机制(喊号,‘ 250 号你的包子好了‘)找到等待该事件的人。

  3.阻塞与非阻塞

   阻塞和非阻塞这两个概念与程序(线程)等待消息通知(无所谓同步或者异步)时的状态有关。也就是说阻塞与非阻塞主要是程序(线程)等待消息通知时的状态角度来讲的

1
2
继续上面的那个例子,不管是排队仍是使用号码等待通知,若是在这个等待的过程当中,等待者除了等待消息通知以外不能作其它的事情,那么该机制就是阻塞的,表如今程序中,也就是该程序一直阻塞在该函数调用处不能继续往下执行。
相反,有的人喜欢在等待取餐的时候一边打游戏一边等待,这样的状态就是非阻塞的,由于他(等待者)没有阻塞在这个消息通知上,而是一边作本身的事情一边等待。阻塞的方法: input 、time.sleep,socket中的recv、accept等等。

  4.同步/异步 与 阻塞和非阻塞

  1. 同步阻塞形式

    效率最低。拿上面的例子来讲,就是你专心排队,什么别的事都不作。

  1. 异步阻塞形式

    若是在排队取餐的人采用的是异步的方式去等待消息被触发(通知),也就是领了一张小纸条,假如在这段时间里他不能作其它的事情,就在那坐着等着,不能玩游戏等,那么很显然,这我的被阻塞在了这个等待的操做上面;

    异步操做是能够被阻塞住的,只不过它不是在处理消息时阻塞,而是在等待消息通知时被阻塞。

  1. 同步非阻塞形式

    其实是效率低下的。

    想象一下你一边打着电话一边还须要抬头看到底队伍排到你了没有,若是把打电话和观察排队的位置当作是程序的两个操做的话,这个程序须要在这两种不一样的行为之间来回的切换,效率可想而知是低下的。

  1. 异步非阻塞形式

    效率更高,

    由于打电话是你(等待者)的事情,而通知你则是柜台(消息触发机制)的事情,程序没有在两种不一样的操做中来回切换

    好比说,这我的忽然发觉本身烟瘾犯了,须要出去抽根烟,因而他告诉点餐员说,排到我这个号码的时候麻烦到外面通知我一下,那么他就没有被阻塞在这个等待的操做上面,天然这个就是异步+非阻塞的方式了。

  不少人会把同步和阻塞混淆,是由于不少时候同步操做会以阻塞的形式表现出来,一样的,不少人也会把异步和非阻塞混淆,由于异步操做通常都不会在真正的IO操做处被阻塞

六. 进程的建立、结束与并发的实现(了解)

  1.进程的建立

    但凡是硬件,都须要有操做系统去管理,只要有操做系统,就有进程的概念,就须要有建立进程的方式,一些操做系统只为一个应用程序设计,好比微波炉中的控制器,一旦启动微波炉,全部的进程都已经存在。

    而对于通用系统(跑不少应用程序),须要有系统运行过程当中建立或撤销进程的能力,主要分为4中形式建立新的进程

      1. 系统初始化(查看进程linux中用ps命令,windows中用任务管理器,前台进程负责与用户交互,后台运行的进程与用户无关,运行在后台而且只在须要时才唤醒的进程,称为守护进程,如电子邮件、web页面、新闻、打印)

      2. 一个进程在运行过程当中开启了子进程(如nginx开启多进程,os.fork,subprocess.Popen等)

      3. 用户的交互式请求,而建立一个新进程(如用户双击暴风影音)

      4. 一个批处理做业的初始化(只在大型机的批处理系统中应用)

  

    不管哪种,新进程的建立都是由一个已经存在的进程执行了一个用于建立进程的系统调用而建立的:

      1. 在UNIX中该系统调用是:fork,fork会建立一个与父进程如出一辙的副本,两者有相同的存储映像、一样的环境字符串和一样的打开文件(在shell解释器进程中,执行一个命令就会建立一个子进程)

      2. 在windows中该系统调用是:CreateProcess,CreateProcess既处理进程的建立,也负责把正确的程序装入新进程。

    关于建立的子进程,UNIX和windows

      1.相同的是:进程建立后,父进程和子进程有各自不一样的地址空间(多道技术要求物理层面实现进程之间内存的隔离),任何一个进程的在其地址空间中的修改都不会影响到另一个进程。

      2.不一样的是:在UNIX中,子进程的初始地址空间是父进程的一个副本,提示:子进程和父进程是能够有只读的共享内存区的。可是对于windows系统来讲,从一开始父进程与子进程的地址空间就是不一样的。

   2.进程的结束 

    1. 正常退出(自愿,如用户点击交互式页面的叉号,或程序执行完毕调用发起系统调用正常退出,在linux中用exit,在windows中用ExitProcess)

    2. 出错退出(自愿,python a.py中a.py不存在)

    3. 严重错误(非自愿,执行非法指令,如引用不存在的内存,1/0等,能够捕捉异常,try...except...)

    4. 被其余进程杀死(非自愿,如kill -9)

   3.进程并发的实现(了解)

    进程并发的实如今于,硬件中断一个正在运行的进程,把此时进程运行的全部状态保存下来,为此,操做系统维护一张表格,即进程表(process table),每一个进程占用一个进程表项(这些表项也称为进程控制块)

    

    该表存放了进程状态的重要信息:程序计数器、堆栈指针、内存分配情况、全部打开文件的状态、账号和调度信息,以及其余在进程由运行态转为就绪态或阻塞态时,必须保存的信息,从而保证该进程在再次启动时,就像从未被中断过同样。

 

  上面的内容都是进程的一些理论基础,下面的内容是python中进程的应用实战

七.multiprocess模块

  仔细说来,multiprocess不是一个模块而是python中一个操做、管理进程的包。 之因此叫multi是取自multiple的多功能的意思,在这个包中几乎包含了和进程有关的全部子模块。因为提供的子模块很是多,为了方便你们归类记忆,我将这部分大体分为四个部分:建立进程部分,进程同步部分,进程池部分,进程之间数据共享。重点强调:进程没有任何共享状态,进程修改的数据,改动仅限于该进程内,可是经过一些特殊的方法,能够实现进程之间数据的共享。

  1.process模块介绍

     process模块是一个建立进程的模块,借助这个模块,就能够完成进程的建立。

1
2
3
4
5
Process([group [, target [, name [, args [, kwargs]]]]]),由该类实例化获得的对象,表示一个子进程中的任务(还没有启动)
 
强调:
1.  须要使用关键字的方式来指定参数
2.  args指定的为传给target函数的位置参数,是一个元组形式,必须有逗号

    咱们先写一个程序来看看:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#当前文件名称为test.py
# from multiprocessing import Process
#
# def func():
#     print(12345)
#
# if __name__ == '__main__': #windows 下才须要写这个,这和系统建立进程的机制有关系,不用深究,记着windows下要写就好啦
#     #首先我运行当前这个test.py文件,运行这个文件的程序,那么就产生了进程,这个进程咱们称为主进程
#
#     p = Process(target=func,) #将函数注册到一个进程中,p是一个进程对象,此时尚未启动进程,只是建立了一个进程对象。而且func是不加括号的,由于加上括号这个函数就直接运行了对吧。
#     p.start() #告诉操做系统,给我开启一个进程,func这个函数就被咱们新开的这个进程执行了,而这个进程是我主进程运行过程当中建立出来的,因此称这个新建立的进程为主进程的子进程,而主进程又能够称为这个新进程的父进程。
           #而这个子进程中执行的程序,至关于将如今这个test.py文件中的程序copy到一个你看不到的python文件中去执行了,就至关于当前这个文件,被另一个py文件import过去并执行了。
           #start并非直接就去执行了,咱们知道进程有三个状态,进程会进入进程的三个状态,就绪,(被调度,也就是时间片切换到它的时候)执行,阻塞,而且在这个三个状态之间不断的转换,等待cpu执行时间片到了。
#     print('*' * 10) #这是主进程的程序,上面开启的子进程的程序是和主进程的程序同时运行的,咱们称为异步

    上面说了,咱们经过主进程建立的子进程是异步执行的,那么咱们就验证一下,而且看一会儿进程和主进程(也就是父进程)的ID号(讲一下pid和ppid,使用pycharm举例),来看看是不是父子关系。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import  time
import  os
 
#os.getpid()  获取本身进程的ID号
#os.getppid() 获取本身进程的父进程的ID号
 
from  multiprocessing  import  Process
 
def  func():
     print ( 'aaaa' )
     time.sleep( 1 )
     print ( '子进程>>' ,os.getpid())
     print ( '该子进程的父进程>>' ,os.getppid())
     print ( 12345 )
 
if  __name__  = =  '__main__' :
     #首先我运行当前这个文件,运行的这个文件的程序,那么就产生了主进程
 
     =  Process(target = func,)
     p.start()
     print ( '*'  *  10 )
     print ( '父进程>>' ,os.getpid())
     print ( '父进程的父进程>>' ,os.getppid())
 
#加上time和进程号给你们看一看结果:
#********** 首先打印出来了出进程的程序,而后打印的是子进程的,也就是子进程是异步执行的,至关于主进程和子进程同时运行着,若是是同步的话,咱们先执行的是func(),而后再打印主进程最后的10个*号。
#父进程>> 3308
#父进程的父进程>> 5916 #我运行的test.py文件的父进程号,它是pycharm的进程号,看下面的截图
 
#aaaa
#子进程>> 4536
#该子进程的父进程>> 3308 #是我主进程的ID号,说明主进程为它的父进程

    

打开windows下的任务管理器,看pycharm的pid进程号,是咱们上面运行的test.py这个文件主进程的父进程号:

    

 

    看一个问题,说明linux和windows两个不一样的操做系统建立进程的不一样机制致使的不一样结果: 

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import  time
import  os
from  multiprocessing  import  Process
 
def  func():
     print ( 'aaaa' )
     time.sleep( 1 )
     print ( '子进程>>' ,os.getpid())
     print ( '该子进程的父进程>>' ,os.getppid())
     print ( 12345 )
 
print ( '太白老司机~~~~' #若是我在这里加了一个打印,你会发现运行结果中会出现两次打印出来的太白老司机,由于咱们在主进程中开了一个子进程,子进程中的程序至关于import的主进程中的程序,那么import的时候会不会执行你import的那个文件的程序啊,前面学的,是会执行的,因此出现了两次打印
#实际上是由于windows开起进程的机制决定的,在linux下是不存在这个效果的,由于windows使用的是process方法来开启进程,他就会拿到主进程中的全部程序,而linux下只是去执行我子进程中注册的那个函数,不会执行别的程序,这也是为何在windows下要加上执行程序的时候,
要加上 if  __name__  = =  '__main__' :,不然会出现子进程中运行的时候还开启子进程,那就出现无限循环的建立进程了,就报错了

    一个进程的生命周期:若是子进程的运行时间长,那么等到子进程执行结束程序才结束,若是主进程的执行时间长,那么主进程执行结束程序才结束,实际上咱们在子进程中打印的内容是在主进程的执行结果中看不出来的,可是pycharm帮咱们作了优化,由于它会识别到你这是开的子进程,帮你把子进程中打印的内容打印到了显示台上。

    若是说一个主进程运行完了以后,咱们把pycharm关了,可是子进程尚未执行结束,那么子进程还存在吗?这要看你的进程是如何配置的,若是说咱们没有配置说我主进程结束,子进程要跟着结束,那么主进程结束的时候,子进程是不会跟着结束的,他会本身执行完,若是我设定的是主进程结束,子进程必须跟着结束,那么就不会出现单独的子进程(孤儿进程)了,具体如何设置,看下面的守护进程的讲解。好比说,咱们未来启动项目的时候,可能经过cmd来启动,那么我cmd关闭了你的项目就会关闭吗,不会的,由于你的项目不能中止对外的服务,对吧。

    Process类中参数的介绍:

1
2
3
4
5
6
参数介绍:
1  group参数未使用,值始终为 None
2  target表示调用对象,即子进程要执行的任务
3  args表示调用对象的位置参数元组,args = ( 1 , 2 , 'egon' ,)
4  kwargs表示调用对象的字典,kwargs = { 'name' : 'egon' , 'age' : 18 }
5  name为子进程的名称

    给要执行的函数传参数:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
def  func(x,y):
     print (x)
     time.sleep( 1 )
     print (y)
 
if  __name__  = =  '__main__' :
 
     =  Process(target = func,args = ( '姑娘' , '来玩啊!' )) #这是func须要接收的参数的传送方式。
     p.start()
     print ( '父进程执行结束!' )
 
#执行结果:
父进程执行结束!
姑娘
来玩啊!

    Process类中各方法的介绍:

1
2
3
4
5
1  p.start():启动进程,并调用该子进程中的p.run()
2  p.run():进程启动时运行的方法,正是它去调用target指定的函数,咱们自定义类的类中必定要实现该方法 
3  p.terminate():强制终止进程p,不会进行任何清理操做,若是p建立了子进程,该子进程就成了僵尸进程,使用该方法须要特别当心这种状况。若是p还保存了一个锁那么也将不会被释放,进而致使死锁
4  p.is_alive():若是p仍然运行,返回 True
5  p.join([timeout]):主线程等待p终止(强调:是主线程处于等的状态,而p是处于运行的状态)。timeout是可选的超时时间,须要强调的是,p.join只能join住start开启的进程,而不能join住run开启的进程 

    join方法的例子:

    让主进程加上join的地方等待(也就是阻塞住),等待子进程执行完以后,再继续往下执行个人主进程,好多时候,咱们主进程须要子进程的执行结果,因此必需要等待。join感受就像是将子进程和主进程拼接起来同样,将异步改成同步执行。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
def  func(x,y):
     print (x)
     time.sleep( 1 )
     print (y)
 
if  __name__  = =  '__main__' :
 
     =  Process(target = func,args = ( '姑娘' , '来玩啊!' ))
     p.start()
     print ( '我这里是异步的啊!' )   #这里相对于子进程仍是异步的
     p.join()   #只有在join的地方才会阻塞住,将子进程和主进程之间的异步改成同步
     print ( '父进程执行结束!' )
 
#打印结果:
我这里是异步的啊!
姑娘
来玩啊!
父进程执行结束!

    怎么样开启多个进程呢?for循环。而且我有个需求就是说,全部的子进程异步执行,而后全部的子进程所有执行完以后,我再执行主进程,怎么搞?看代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
#下面的注释按照编号去看,别忘啦!
import  time
import  os
from  multiprocessing  import  Process
 
def  func(x,y):
     print (x)
     # time.sleep(1) #进程切换:若是没有这个时间间隔,那么你会发现func执行结果是打印一个x而后一个y,再打印一个x一个y,不会出现打印多个x而后打印y的状况,由于两个打印距离太近了并且执行的也很是快,可是若是你这段程序运行慢的话,你就会发现进程之间的切换了。
     print (y)
 
if  __name__  = =  '__main__' :
 
     p_list =  []
     for  in  range ( 10 ):
         =  Process(target = func,args = ( '姑娘%s' % i, '来玩啊!' ))
         p_list.append(p)
         p.start()
 
     [ap.join()  for  ap  in  p_list]  #四、这是解决办法,前提是咱们的子进程所有都已经去执行了,那么我在一次给全部正在执行的子进程加上join,那么主进程就须要等着全部子进程执行结束才会继续执行本身的程序了,而且保障了全部子进程是异步执行的。
 
         # p.join() #一、若是加到for循环里面,那么全部子进程包括父进程就所有变为同步了,由于for循环也是主进程的,循环第一次的时候,一个进程去执行了,而后这个进程就join住了,那么for循环就不会继续执行了,等着第一个子进程执行结束才会继续执行for循环去建立第二个子进程。
         #二、若是我不想这样的,也就是我想全部的子进程是异步的,而后全部的子进程执行完了再执行主进程
     #p.join() #三、若是这样写的话,屡次运行以后,你会发现会出现主进程的程序比一些子进程先执行完,由于咱们p.join()是对最后一个子进程进行了join,也就是说若是这最后一个子进程先于其余子进程执行完,那么主进程就会去执行,而此时若是还有一些子进程没有执行完,而主进程执行
          #完了,那么就会先打印主进程的内容了,这个cpu调度进程的机制有关系,由于咱们的电脑可能只有4个cpu,个人子进程加上住进程有11个,虽然我for循环是按顺序起进程的,可是操做系统必定会按照顺序给你执行你的进程吗,答案是不会的,操做系统会按照本身的算法来分配进
               #程给cpu去执行,这里也解释了咱们打印出来的子进程中的内容也是没有固定顺序的缘由,由于打印结果也须要调用cpu,能够理解成进程在争抢cpu,若是同窗你想问这是什么算法,这就要去研究操做系统啦。那咱们的想全部子进程异步执行,而后再执行主进程的这个需求怎么解决啊
     print ( '不要钱~~~~~~~~~~~~~~~~!' )

    模拟两个应用场景:一、同时对一个文件进行写操做  二、同时建立多个文件

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import  time
import  os
import  re
from  multiprocessing  import  Process
#多进程同时对一个文件进行写操做
def  func(x,y,i):
     with  open (x, 'a' ,encoding = 'utf-8' ) as f:
         print ( '当前进程%s拿到的文件的光标位置>>%s' % (os.getpid(),f.tell()))
         f.write(y)
 
#多进程同时建立多个文件
# def func(x, y):
#     with open(x, 'w', encoding='utf-8') as f:
#         f.write(y)
 
if  __name__  = =  '__main__' :
 
     p_list =  []
     for  in  range ( 10 ):
         =  Process(target = func,args = ( 'can_do_girl_lists.txt' , '姑娘%s' % i,i))
         # p = Process(target=func,args=('can_do_girl_info%s.txt'%i,'姑娘电话0000%s'%i))
         p_list.append(p)
         p.start()
 
     [ap.join()  for  ap  in  p_list]  #这就是个for循环,只不过用列表生成式的形式写的
     with  open ( 'can_do_girl_lists.txt' , 'r' ,encoding = 'utf-8' ) as f:
         data  =  f.read()
         all_num  =  re.findall( '\d+' ,data)  #打开文件,统计一下里面有多少个数据,每一个数据都有个数字,因此re匹配一下就好了
         print ( '>>>>>' ,all_num, '.....%s' % ( len (all_num)))
     #print([i in in os.walk(r'你的文件夹路径')])
     print ( '不要钱~~~~~~~~~~~~~~~~!' )

    Process类中自带封装的各属性的介绍

1
2
3
4
5
1  p.daemon:默认值为 False ,若是设为 True ,表明p为后台运行的守护进程,当p的父进程终止时,p也随之终止,而且设定为 True 后,p不能建立本身的新进程,必须在p.start()以前设置
2  p.name:进程的名称
3  p.pid:进程的pid
4  p.exitcode:进程在运行时为 None 、若是为–N,表示被信号N结束(了解便可)
5  p.authkey:进程的身份验证键,默认是由os.urandom()随机生成的 32 字符的字符串。这个键的用途是为涉及网络链接的底层进程间通讯提供安全性,这类链接只有在具备相同的身份验证键时才能成功(了解便可)

  2.Process类的使用

    注意:在windows中Process()必须放到# if __name__ == '__main__':下

1
2
3
4
5
6
7
8
9
Since Windows has no fork, the multiprocessing module starts a new Python process  and  imports the calling module.
If Process() gets called upon  import , then this sets off an infinite succession of new processes ( or  until your machine runs out of resources).
This  is  the reason  for  hiding calls to Process() inside
 
if  __name__  = =  "__main__"
since statements inside this  if - statement will  not  get called upon  import .
因为Windows没有fork,多处理模块启动一个新的Python进程并导入调用模块。
若是在导入时调用Process(),那么这将启动无限继承的新进程(或直到机器耗尽资源)。
这是隐藏对Process()内部调用的原,使用 if  __name__  = =  “__main __”,这个 if 语句中的语句将不会在导入时被调用。

    进程的建立第二种方法(继承)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
class  MyProcess(Process):  #本身写一个类,继承Process类
     #咱们经过init方法能够传参数,若是只写一个run方法,那么无法传参数,由于建立对象的是传参就是在init方法里面,面向对象的时候,咱们是否是学过
     def  __init__( self ,person):
         super ().__init__()
         self .person = person
     def  run( self ):
         print (os.getpid())
         print ( self .pid)
         print ( self .pid)
         print ( '%s 正在和女主播聊天'  % self .person)
     # def start(self):
     #     #若是你非要写一个start方法,能够这样写,而且在run方法先后,能够写一些其余的逻辑
     #     self.run()
if  __name__  = =  '__main__' :
     p1 = MyProcess( 'Jedan' )
     p2 = MyProcess( '太白' )
     p3 = MyProcess( 'alexDSB' )
 
     p1.start()  #start内部会自动调用run方法
     p2.start()
     # p2.run()
     p3.start()
 
 
     p1.join()
     p2.join()
     p3.join()

    进程之间的数据是隔离的:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#咱们说进程之间的数据是隔离的,也就是数据不共享,看下面的验证
from  multiprocessing  import  Process
n = 100  #首先我定义了一个全局变量,在windows系统中应该把全局变量定义在if __name__ == '__main__'之上就能够了
def  work():
     global  n
     n = 0
     print ( '子进程内: ' ,n)
 
if  __name__  = =  '__main__' :
     p = Process(target = work)
     p.start()
     p.join()  #等待子进程执行完毕,若是数据共享的话,我子进程是否是经过global将n改成0了,可是你看打印结果,主进程在子进程执行结束以后,仍然是n=100,子进程n=0,说明子进程对n的修改没有在主进程中生效,说明什么?说明他们之间的数据是隔离的,互相不影响的
     print ( '主进程内: ' ,n)
 
#看结果:
# 子进程内:  0
# 主进程内:  100

    练习:咱们以前学socket的时候,知道tcp协议的socket是不能同时和多个客户端进行链接的,(这里先不考虑socketserver那个模块),对不对,那咱们本身经过多进程来实现一下同时和多个客户端进行链接通讯。

     服务端代码示例:(注意一点:经过这个是不能作qq聊天的,由于qq聊天是qq的客户端把信息发给另一个qq的客户端,中间有一个服务端帮你转发消息,而不是咱们这样的单纯的客户端和服务端对话,而且子进程开启以后我们是无法操做的,而且没有为子进程input输入提供控制台,全部你再在子进程中写上了input会报错,EOFError错误,这个错误的意思就是你的input须要输入,可是你输入不了,就会报这个错误。而子进程的输出打印之类的,是pycharm作了优化,将全部子进程中的输出结果帮你打印出来了,但实质仍是不一样进程的。)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
from  socket  import  *
from  multiprocessing  import  Process
 
def  talk(conn,client_addr):
     while  True :
         try :
             msg = conn.recv( 1024 )
             print ( '客户端消息>>' ,msg)
             if  not  msg: break
             conn.send(msg.upper())
             #在这里有同窗可能会想,我能不能在这里写input来本身输入内容和客户端进行对话?朋友,是这样的,按说是能够的,可是须要什么呢?须要你像咱们用pycharm的是同样下面有一个输入内容的控制台,当咱们的子进程去执行的时候,咱们是没有地方能够显示可以让你输入内容的控制台的,因此你没办法输入,就会给你报错。
         except  Exception:
             break
 
if  __name__  = =  '__main__' #windows下start进程必定要写到这下面
     server  =  socket(AF_INET, SOCK_STREAM)
     # server.setsockopt(SOL_SOCKET, SO_REUSEADDR,1)  # 若是你将若是你将bind这些代码写到if __name__ == '__main__'这行代码的上面,那么地址重用必需要有,由于咱们知道windows建立的子进程是对整个当前文件的内容进行的copy,前面说了就像import,若是你开启了子进程,那么子进程是会执行bind的,那么你的主进程bind了这个ip和端口,子进程在进行bind的时候就会报错。
     server.bind(( '127.0.0.1' 8080 ))
     #有同窗可能还会想,我为何多个进程就能够链接一个server段的一个ip和端口了呢,我记得当时说tcp的socket的时候,我是不能在你这个ip和端口被链接的状况下再链接你的啊,这里是由于当时咱们就是一个进程,一个进程里面是只能一个链接的,多进程是能够多链接的,这和进程之间是单独的内存空间有关系,先这样记住他,好吗?
     server.listen( 5 )
     while  True :
         conn,client_addr = server.accept()
         p = Process(target = talk,args = (conn,client_addr))
         p.start()

    客户端代码示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
from  socket  import  *
 
client = socket(AF_INET,SOCK_STREAM)
client.connect(( '127.0.0.1' , 8080 ))
 
 
while  True :
     msg = input ( '>>: ' ).strip()
     if  not  msg: continue
 
     client.send(msg.encode( 'utf-8' ))
     msg = client.recv( 1024 )
     print (msg.decode( 'utf-8' ))