线程间到底共享了哪些进程资源?看完这篇你就懂了~

前言

进程和线程这两个话题是程序员绕不开的,操做系统提供的这两个抽象概念实在是过重要了。关于进程和线程有一个极其经典的问题,那就是进程和线程的区别是什么?相信不少同窗对答案似懂非懂。程序员

记住了不必定真懂markdown

关于这个问题有的同窗可能已经“背得”倒背如流了:“进程是操做系统分配资源的单位,线程是调度的基本单位,线程之间共享进程资源”。但是你真的理解了上面最后一句话吗?到底线程之间共享了哪些进程资源,共享资源意味着什么?共享资源这种机制是如何实现的?对此若是你没有答案的话,那么这意味着你几乎很难写出能正确工做的多线程程序,同时也意味着这篇文章就是为你准备的。多线程

####逆向思考函数

查理芒格常常说这样一句话:“反过来想,老是反过来想”,若是你对线程之间共享了哪些进程资源这个问题想不清楚的话那么也能够反过来思考,那就是有哪些资源是线程私有的工具

线程私有资源spa

线程运行的本质其实就是函数的执行,函数的执行总会有一个源头,这个源头就是所谓的入口函数,CPU从入口函数开始执行从而造成一个执行流,只不过咱们人为的给执行流起一个名字,这个名字就叫线程。操作系统

既然线程运行的本质就是函数的执行,那么函数执行都有哪些信息呢?在**《[函数运行时在内存中是什么样子]》**这篇文章中应该提过,函数运行时的信息保存在栈帧中,栈帧中保存了函数的返回值、调用其它函数的参数、该函数使用的局部变量以及该函数使用的寄存器信。线程

如图所示,假设函数A调用函数B:翻译

此外,CPU执行指令的信息保存在一个叫作程序计数器的寄存器中,经过这个寄存器咱们就知道接下来要执行哪一条指令。因为操做系统随时能够暂停线程的运行,所以咱们保存以及恢复程序计数器中的值就能知道线程是从哪里暂停的以及该从哪里继续运行了。因为线程运行的本质就是函数运行,函数运行时信息是保存在栈帧中的,所以每一个线程都有本身独立的、私有的栈区。debug

图片

同时函数运行时须要额外的寄存器来保存一些信息,像部分局部变量之类,这些寄存器也是线程私有的,一个线程不可能访问到另外一个线程的这类寄存器信息

从上面的讨论中咱们知道,到目前为止,所属线程的栈区、程序计数器、栈指针以及函数运行使用的寄存器是线程私有的。

以上这些信息有一个统一的名字,就是线程上下文,thread context。咱们也说过操做系统调度线程须要随时中断线程的运行而且须要线程被暂停后能够继续运行,操做系统之因此能实现这一点,依靠的就是线程上下文信息。

如今你应该知道哪些是线程私有的了吧。除此以外,剩下的都是线程间共享资源。那么剩下的还有什么呢?还有图中的这些。

这其实就是进程地址空间的样子,也就是说线程共享进程地址空间中除线程上下文信息中的全部内容,意思就是说线程能够直接读取这些内容。接下来咱们分别来看一下这些区域。

代码区

进程地址空间中的代码区,这里保存的是什么呢?从名字中有的同窗可能已经猜到了,没错,这里保存的就是咱们写的代码,更准确的是编译后的可执行机器指令

那么这些机器指令又是从哪里来的呢?答案是从可执行文件中加载到内存的,可执行程序中的代码区就是用来初始化进程地址空间中的代码区的。

线程之间共享代码区,这就意味着程序中的任何一个函数均可以放到线程中去执行,不存在某个函数只能被特定线程执行的状况

数据区

进程地址空间中的数据区,这里存放的就是所谓的全局变量。什么是全局变量?所谓全局变量就是那些你定义在函数以外的变量,在C语言中就像这样:

其中字符c就是全局变量,存放在进程地址空间中的数据区。

在程序员运行期间,也就是run time,数据区中的全局变量有且仅有一个实例,全部的线程均可以访问到该全局变量。值得注意的是,在C语言中还有一类特殊的“全局变量”,那就是用static关键词修饰过的变量,就像这样:

注意到,虽然变量a定义在函数内部,但变量a依然具备全局变量的特性,也就是说变量a放在了进程地址空间的数据区域,即便函数执行完后该变量依然存在,而普通的局部变量随着函数调用结束和函数栈帧一块儿被回收掉了,但这里的变量a不会被回收,由于其被放到了数据区。 这样的变量对每一个线程来讲也是可见的,也就是说每一个线程均可以访问到该变量。

堆区

堆区是程序员比较熟悉的,咱们在C/C++中用malloc或者new出来的数据就存放在这个区域,很显然,只要知道变量的地址,也就是指针,任何一个线程均可以访问指针指向的数据,所以堆区也是线程共享的属于进程的资源。

栈区

唉,等等!刚不是说栈区是线程私有资源吗,怎么这会儿又提及栈区了?确实,从线程这个抽象的概念上来讲,栈区是线程私有的,然而从实际的实现上看,栈区属于线程私有这一规则并无严格遵照

这句话是什么意思?

一般来讲,注意这里的用词是一般,一般来讲栈区是线程私有,既然有一般就有不一般的时候。不一般是由于不像进程地址空间之间的严格隔离,线程的栈区没有严格的隔离机制来保护

所以若是一个线程能拿到来自另外一个线程栈帧上的指针,那么该线程就能够改变另外一个线程的栈区,也就是说这些线程能够任意修改本属于另外一个线程栈区中的变量。

图片

这从某种程度上给了程序员极大的便利,但同时,这也会致使极其难以排查到的bug。

试想一下你的程序运行的好好的,结果某个时刻忽然出问题,定位到出问题代码行后根本就排查不到缘由,你固然是排查不到问题缘由的,由于你的程序原本就没有任何问题。

是别人的问题致使你的函数栈帧数据被写坏从而产生bug,这样的问题一般很难排查到缘由,须要对总体的项目代码很是熟悉,经常使用的一些debug工具这时可能已经没有多大做用了。

说了这么多,那么同窗可能会问,一个线程是怎样修改本属于其它线程的数据呢?接下来咱们用一个代码示例讲解一下。

修改线程私有数据

不要担忧,如下代码足够简单:

void thread(void* var) {
复制代码

####这段代码是什么意思呢? 首先咱们在主线程的栈区定义了一个局部变量,也就是 int a= 1这行代码,如今咱们已经知道了,局部变量a属于主线程私有数据,可是,接下来咱们建立了另一个线程。

在新建立的这个线程中,咱们将变量a的地址以参数的形式传给了新建立的线程,而后我来看一下thread函数。在新建立的线程中,咱们获取到了变量a的指针,而后将其修改成了2

也就是这行代码,咱们在新建立的线程中修改了本属于主线程的私有数据。

如今你应该看明白了吧,尽管栈区是线程的私有数据,但因为栈区没有添加任何保护机制,一个线程的栈区对其它线程是能够见的,也就是说咱们能够修改属于任何一个线程的栈区。

就像咱们上文说获得的,这给程序员带来了极大便利的同时也带来了无尽的麻烦,试想上面这段代码,若是确实是项目须要那么这样写代码无可厚非。

但若是上述新建立线程是因bug修改了属于其它线程的私有数据的话,那么产生问题就很难定位了,由于bug可能距离问题暴露的这行代码已经很远了,这样的问题一般难以排查。

####动态连接库

进程地址空间中除了以上讨论的这些实际上还有其它内容,还有什么呢?这就要从可执行程序提及了。

什么是可执行程序呢?

在Windows中就是咱们熟悉的exe文件,在Linux世界中就是ELF文件,这些能够被操做系统直接运行的程序就是咱们所说的可执行程序。

那么可执行程序是怎么来的呢?有的同窗可能会说,废话,不就是编译器生成的吗?实际上这个答案只答对了一半。

假设咱们的项目比较简单只有几个源码文件,编译器是怎么把这几个源代码文件转换为最终的一个可执行程序呢?

原来,编译器在将可执行程序翻译成机器指令后,接下来还有一个重要的步骤,这就是连接,连接完成后生成的才是可执行程序。完成连接这一过程的就是连接器。

其中连接器能够有两种连接方式,这就是静态连接动态连接。静态连接的意思是说把全部的机器指令一股脑所有打包到可执行程序中,动态连接的意思是咱们不把动态连接的部分打包到可执行程序,而是在可执行程序运行起来后去内存中找动态连接的那部分代码,这就是所谓的静态连接和动态连接。

动态连接一个显而易见的好处就是可执行程序的大小会很小,就像咱们在Windows下看一个exe文件可能很小,那么该exe极可能是动态连接的方式生成的

而动态连接的部分生成的库就是咱们熟悉的动态连接库,在Windows下是以DLL结尾的文件,在Linux下是以so结尾的文件。说了这么多,这和线程共享资源有什么关系呢?

原来若是一个程序是动态连接生成的,那么其地址空间中有一部分包含的就是动态连接库,不然程序就运行不起来了,这一部分的地址空间也是被全部线程所共享的。

也就是说进程中的全部线程均可以使用动态连接库中的代码。以上实际上是关于连接这一主题的极简介绍,关于连接这一话题的详细讨论能够参考**《[完全理解连接器]》**系列文章。

####文件

最后,若是程序在运行过程当中打开了一些文件,那么进程地址空间中还保存有打开的文件信息,进程打开的文件也能够被全部的线程使用,这也属于线程间的共享资源。

** One More Thing:TLS**

本文就这些了吗?实际上关于线程私有数据还有一项没有详细讲解,由于再讲下去本篇就撑爆了,并且本篇已经讲解的部分足够用了,剩下的这一点仅仅做为补充,也就是选学部分,若是你对此不感兴趣的话彻底能够跳过,没有问题

。关于线程私有数据还有一项技术,那就是线程局部存储,Thread Local Storage,TLS。这是什么意思呢?其实从名字上也能够看出,所谓线程局部存储,是指存放在该区域中的变量有两个含义:

  • 存放在该区域中的变量是全局变量,全部线程均可以访问

  • 虽然看上去全部线程访问的都是同一个变量,但该全局变量独属于一个线程,一个线程对此变量的修改对其余线程不可见。

说了这么多仍是没懂有没有?不要紧,接下来看完这两段代码还不懂你来打我。咱们先来看第一段代码,不用担忧,这段代码很是很是的简单:

int a = 1; // 全局变量
复制代码

怎么样,这段代码足够简单吧,上述代码是用C++11写的,我来说解下这段代码是什么意思。

  • 首先咱们建立了一个全局变量a,初始值为1
  • 其次咱们建立了两个线程,每一个线程对变量a加1
  • 线程的join函数表示该线程运行完毕后才继续运行接下来的代码

那么这段代码的运行起来会打印什么呢?全局变量a的初始值为1,第一个线程加1后a变为2,所以会打印2;第二个线程再次加1后a变为3,所以会打印3,让咱们来看一下运行结果:

2
复制代码

看来咱们分析的没错,全局变量在两个线程分别加1后最终变为3。接下来咱们对变量a的定义稍做修改,其它代码不作改动:

__thread int a = 1; // 线程局部存储
复制代码

咱们看到全局变量a前面加了一个__thread关键词用来修饰,也就是说咱们告诉编译器把变量a放在线程局部存储中,那这会对程序带来哪些改变呢?简单运行一下就知道了:

2
复制代码

和你想的同样吗?有的同窗可能会大吃一惊,为何咱们明明对变量a加了两次,但第二次运行为何仍是打印2而不是3呢?

想想这是为何。原来,这就是线程局部存储的做用所在,线程t1对变量a的修改不会影响到线程t2,线程t1在将变量a加到1后变为2,但对于线程t2来讲此时变量a依然是1,所以加1后依然是2。

所以,线程局部存储可让你使用一个独属于线程的全局变量。也就是说,虽然该变量能够被全部线程访问,但该变量在每一个线程中都有一个副本,一个线程对改变量的修改不会影响到其它线程。

总结

怎么样,没想到教科书上一句简单的“线程共享进程资源”背后居然会有这么多的知识点吧,教科书上的知识看似容易,但,并不简单。但愿本篇能对你们理解进程、线程能有多帮助。最后的最后,若是以为文章对你有帮助的话,请多多分享一下!!!