go goroutine调度机制 && goroutine池

时间 2021-02-18

标签 html git github 算法编程缓存多线程并发函数高并发栏目 HTML 繁體版

原文原文链接

Posted by 微博@Yangsc_o
原创文章，版权声明：自由转载-非商用-非衍生-保持署名 | Creative Commons BY-NC-ND 3.0

摘要

使用go语言写程序差很少有半年多了，也对go语言有了更深的理解，今天聊聊go goroutine的调度原理。html

线程

进程：进程是并发执行程序在执行过程当中资源分配和管理的基本单位（资源分配的最小单位）。进程能够理解为一个应用程序的执行过程，应用程序一旦执行，就是一个进程。每一个进程都有本身独立的地址空间，每启动一个进程，系统就会为它分配地址空间，创建数据表来维护代码段、堆栈段和数据段。git

线程：程序执行的最小单位。github

并发编程的目的是为了让程序运行得更快，可是并非启动更多的线程就能让程序最大限度地并发执行。在进行并发编程时，若是但愿经过多线程执行任务让程序运行得更快，会面临很是多的挑战，好比上下文切换的问题、死锁的问题，以及受限于硬件和软件的资源限制问题。算法

上下文切换

即便是单核CPU也支持多线程执行代码，CPU经过给每一个线程分配CPU时间片来实现这个机制。时间片是CPU分配给各个线程的时间，由于时间片很是短，因此CPU经过不停地切换线程执行，让咱们感受多个线程时同时执行的，时间片通常是几十毫秒（ms）。编程

CPU经过时间片分配算法来循环执行任务，当前任务执行一个时间片后会切换到下一个任务。可是，在切换前会保存上一个任务的状态，以便下次切换回这个任务时，能够再次加载这个任务的状态，从任务保存到再加载的过程就是一次上下文切换。缓存

这就像咱们同时读两本书，当咱们在读一本英文的技术书籍时，发现某个单词不认识，因而便打开中英文词典，可是在放下英文书籍以前，大脑必须先记住这本书读到了多少页的第多少行，等查完单词以后，可以继续读这本书。这样的切换是会影响读书效率的，一样上下文切换也会影响多线程的执行速度。多线程

在高并发应用中频繁建立线程会形成没必要要的开销，因此有了线程池。并发

线程池

线程池中预先保存必定数量的线程，而新任务将再也不以建立线程的方式去执行，而是将任务发布到任务队列，线程池中的线程不断的从任务队列中取出任务并执行，能够有效的减小线程建立和销毁所带来的开销。函数

下图展现一个典型的线程池:高并发

G每每表明一个函数。线程池中的线程worker线程不断的从任务队列中取出任务并执行。而worker线程的调度则交给操做系统进行调度。

若是worker线程执行的G任务中发生系统调用，则操做系统会将该线程置为阻塞状态，也意味着该线程在怠工，也意味着消费任务队列的worker线程变少了，也就是说线程池消费任务队列的能力变弱了。

若是任务队列中的大部分任务都会进行系统调用，则会让这种状态恶化，大部分worker线程进入阻塞状态，从而任务队列中的任务产生堆积。

解决这个问题的一个思路就是从新审视线程池中线程的数量，增长线程池中线程数量能够必定程度上提升消费能力，但随着线程数量增多，因为过多线程争抢CPU，消费能力会有上限，甚至出现消费能力降低。

这个问题如何解呢？

Goroutine调度器

线程数过多，意味着操做系统会不断的切换线程，频繁的上下文切换就成了性能瓶颈。Go提供一种机制，能够在线程中本身实现调度，上下文切换更轻量，从而达到了线程数少，而并发数并很多的效果。而线程中调度的就是 Goroutine.
Goroutine 调度器的工做就是把“ready-to- run”的goroutine分发到线程中。
Goroutine主要概念以下:

G(Goroutine): 即Go协程，每一个go关键字都会建立一个协程。
M(Machine): 工做线程，在Go中称为Machine。
P(Processor): 处理器(Go中定义的一个摡念，不是指CPU)，包含运行Go代码的必要资源，也有调度 goroutine的能力。

M必须拥有P才能够执行G中的代码，P含有一个包含多个G的队列，P能够调度G交由M执行。其关系以下图所示:

图中M是交给操做系统调度的线程，M持有一个P，P将G调度进M中执行。P同时还维护着一个包含G的队列(图中灰色部分)，能够按照必定的策略将不能的G调度进M中执行。
P的个数在程序启动时决定，默认状况下等同于CPU的核数，因为M必须持有一个P才能够运行Go代码，因此同时运行的 M个数，也即线程数通常等同于CPU的个数，以达到尽量的使用CPU而又不至于产生过多的线程切换开销。
程序中可使用 runtime.GOMAXPROCS() 设置P的个数，在某些IO密集型的场景下能够在必定程度上提升性能。

Goroutine调度策略

队列轮转

上图中可见每一个P维护着一个包含G的队列，不考虑G进入系统调用或IO操做的状况下，P周期性的将G调度到M中执行，执行一小段时间，将上下文保存下来，而后将G放到队列尾部，而后从队列中从新取出一个G进行调度。

除了每一个P维护的G队列之外，还有一个全局的队列，每一个P会周期性的查看全局队列中是否有G待运行并将期调度到M中执行，全局队列中G的来源，主要有从系统调用中恢复的G。之因此P会周期性的查看全局队列，也是为了防止全局队列中的G被饿死。

队列轮转

上面说到P的个数默认等于CPU核数，每一个M必须持有一个P才能够执行G，通常状况下M的个数会略大于P的个数，这多出来的M将会在G产生系统调用时发挥做用。相似线程池，Go也提供一个M的池子，须要时从池子中获取，用完放回池子，不够用时就再建立一个。

如图所示，当G0即将进入系统调用时，M0将释放P，进而某个空闲的M1获取P，继续执行P队列中剩下的G。而M0因为陷入系统调用而进被阻塞，M1接替M0的工做，只要P不空闲，就能够保证充分利用CPU。

M1的来源有多是M的缓存池，也多是新建的。当G0系统调用结束后，跟据M0是否能获取到P，将会将G0作不一样的处理:

若是有空闲的P，则获取一个P，继续执行G0。
若是没有空闲的P，则将G0放入全局队列，等待被其余的P调度。而后M0将进入缓存池睡眠

工做量窃取

多个P中维护的G队列有多是不均衡的，好比下图:

竖线左侧中右边的P已经将G所有执行完，而后去查询全局队列，全局队列中也没有G，而另外一个M中除了正在运行的G 外，队列中还有3个G待运行。此时，空闲的P会将其余P中的G偷取一部分过来，通常每次偷取一半。偷取完如右图所示。

小结

通常来说，程序运行时就将GOMAXPROCS大小设置为CPU核数，可以让Go程序充分利用CPU。在某些IO密集型的应用里，这个值可能并不意味着性能最好。理论上当某个Goroutine进入系统调用时，会有一个新的M被启用或建立，继续占满CPU。但因为Go调度器检测到M被阻塞是有必定延迟的，也即旧的M被阻塞和新的M获得运行之间是有必定间隔的，因此在IO密集型应用中不妨把GOMAXPROCS设置的大一些，或许会有好的效果。

Goroutine池

同理，在写 go 并发程序的时候若是程序会启动大量的 goroutine ，势必会消耗大量的系统资源（内存，CPU），同理若是引入池化技术，衍生出goroutine池，复用 goroutine ，则会节省资源，提高性能。

选择一个开源的Ants为例。

ants运行原理

性能

从该Ants demo 测试吞吐性能对比能够看出，使用ants的吞吐性能相较于原生 goroutine 能够保持在 2-6 倍的性能压制，而内存消耗则能够达到 10-20 倍的节省优点。

想要深刻了解Ants，请移步项目地址：https://github.com/panjf2000/ants/blob/master/README_ZH.md

参考

The Go scheduler

多线程上下文切换

你的鼓励也是我创做的动力

打赏地址