Python CPU 多核心 多进程 多线程 协程 超线程

电脑CPU是电脑的核心,CPU是中央处理器,是电脑进行线程调度的关键,可以通过查看电脑CPU性能个数可以判定电脑的性能。

CPU个数即CPU芯片个数。 (下图是单CPU双核心 逻辑核心4个{超线程技术}

CPU内核是CPU中间的核心芯片,由单晶硅制成,用来完成所有的计算、接受/存储命令、处理数据等,是数字处理核心。核心(Die)又称为内核,是CPU最重要的组成部分。CPU中心那块隆起的芯片就是核心,是由单晶硅以一定的生产工艺制造出来的,CPU所有的计算、接受/存储命令、处理数据都由核心执行。各种CPU核心都具有固定的逻辑结构,一级缓存、二级缓存、执行单元、指令级单元和总线接口等逻辑单元都会有科学的布局。

超线程技术:一个核心可以对应两个线程,也就是说它可以同时运行两个线程。

线程&进程&协程的关系 

  • 线程和进程是系统级的调度单位
    • 多进程:适用于密集CPU任务, 可以充分调度CPU资源(大量的并行运算)。 multiprocessing 缺点:不适用于需要大量数据通信和多次切换的场景,因为进程之间通信和切换成本高。

    • 多线程:适用于密集IO任务(网络IO,磁盘IO,数据库IO), 在IO阻塞时可以切换线程执行。 threading.Thread、multiprocessing.dummy    缺点:同一个CPU时间片只能执行一个任务,不能做到并行,只能做到并发。优点:线程之间切换和通信非常方便,开销小。

  • 协程是用户级的调度单位
    • 由程序员自行编写调度功能, 切换协程就好比切换一个函数, 几乎没有切换开销。

          特点是在单线程上执行多个任务, 调度由程序员控制,不经过操作系统, 所以没有进程线程的切换开销, 也不需要处理锁。

          gevent monkey.patch_all() monkey的作用是将Python底层的网络库socket、select自动打个补丁, 程序在遇到网络IO阻塞时, 可以自动切换协程工作。

          (该补丁不适用于本地IO)

        优点:协程任务是基于用户的,不经过操作系统,执行效率极高。
        
        缺点:单线程执行,不能处理 CPU密集任务,和密集本地IO任务。
  • 每一个进程启动时都会最先产生一个主线程。然后主线程会再创建其他的子线程

进程: 表示一个程序的执行活动 (打开程序、读写程序数据、关闭程序)

  • 每个进程都是有自己独立的内存空间,不同进程之间的内存空间是不能共享。 不同进程之间的通信是由操作系统来完成的。 不同进程之间的通信效率低切换开销也大。

线程: 执行某个程序时, 该进程调度的最小执行单位 (执行功能1,执行功能2) 一个程序至少有一个进程 一个进程至少有一个线程

  • 一个进程下可以有多个线程,同一个进程内的线程可以共享内存空间. 不同线程之间的通信 有进程 管理。 不同线程之间的通信效率高,切换开销小。

并行: 需要处理的任务数 == CPU核心数量 两个任务 两个核心 任务1:------------- 任务2:-------------

并发: 需要处理的任务数 > CPU核心数量 三个任务 一个核心 任务1: ----- ------ 任务2: ------ 任务3: ------

GIL锁

  • 首先需要明确的一点是GIL并不是Python的特性,它是在实现Python解析器(CPython)时所引入的一个概念。就好比C++是一套语言(语法)标准,但是可以用不同的编译器来编译成可执行代码。有名的编译器例如GCC,INTEL C++,Visual C++等。Python也一样,同样一段代码可以通过CPython,PyPy,Psyco等不同的Python执行环境来执行。像其中的JPython就没有GIL。然而因为CPython是大部分环境下默认的Python执行环境。所以在很多人的概念里CPython就是Python,也就想当然的把GIL归结为Python语言的缺陷。所以这里要先明确一点:GIL并不是Python的特性,Python完全可以不依赖于GIL

    那么CPython实现中的GIL又是什么呢?GIL全称Global Interpreter Lock.

GIL的影响

  • python只有一个GIL,运行python时,就要拿到这个锁才能执行,在遇到I/O 操作时会释放这把锁。
  • 在Python2中,如果是纯计算的程序,没有 I/O 操作,解释器会每隔100次操作就释放这把锁,让别的线程有机会 执行(这个次数可以通sys.setcheckinterval
    来调整)同一时间只会有一个获得GIL线程在跑,其他线程都处于等待状态
  • 而在python3.x中,GIL不使用ticks计数,改为使用计时器(执行时间达到阈值后,当前线程释放GIL),这样对CPU密集型程序更加友好,但依然没有解决GIL导致的同一时间只能执行一个线程的问题,所以效率依然不尽如人意。
  • 如果是CPU密集型代码(循环、计算等),由于计算工作量多和大,计算很快就会达到100,然后触发GIL的释放与在竞争,多个线程来回切换损耗资源,所以在多线程遇到CPU密集型代码时,单线程会比多线程的快。
  • 如果是I\O密集型代码(文件处理、网络爬虫),开启多线程实际上是并发(不是并行),IO操作会进行IO等待,线程A等待时,自动切换到线程B,这样就提升了效率,比单线程快很多。
  • 多核多线程比单核多线程更差,原因是单核下多线程,每次释放GIL,唤醒的那个线程都能获取到GIL锁,所以能够无缝执行,但多核下,CPU0释放GIL后,其他CPU上的线程都会进行竞争,但GIL可能会马上又被CPU0拿到,导致其他几个CPU上被唤醒后的线程会醒着等待到切换时间后又进入待调度状态,这样会造成线程颠簸(thrashing),导致效率更低 
  • “python下想要充分利用多核CPU,就用多进程”,原因是什么呢?

    原因是:每个进程有各自独立的GIL,互不干扰,这样就可以真正意义上的并行执行,(多线程并不是真正意义上的并行执行,只能算并发执行)所以在python中,多进程的执行效率优于多线程(仅仅针对多核CPU而言)。

  • 由于现实生活中运行的总进程数量总是多于 CPU核心数量!因此,严格来说并没有真正意义上的并行。现在运行的程序都是轮询调度产生的并行假象,所以如何根据实际情况选择多进程或是多线程。

GIL总结

  • 因为GIL的存在,只有IO密集型场景下的多线程会得到较好的性能,而在CPU密集型(计算密集型)或者高并发场景下,使用多进程效率会更快
  • GIL在较长一段时间内将会继续存在,但是会不断对其进行改进
  • GIL的全称是全局解释器锁, 也就是一个解释器一个锁,解释器也就是python.exe可执行文件,GIL的目的是确保每个进程中只有一个线程运行,所以多个进程之间是不会互相影响的,多进程确实可以用来削弱GIL的负面影响,但是对于IO密集型操作事务,多进程理论上也会比多线程快一点,但是因为多进程消耗的资源也比多线程大很多,所以说你只有少数的任务并发,你用多进程没有问题,但是并发任务多的情况而且是IO密集型操作,用多线程就比多进程好的多,毕竟多线程占用资源少,比多进程更加便于管理,多进程的管理比多线程要复杂而且不稳定