《深刻理解Java虚拟机》-----第12章 Java内存模型与线程

时间 2019-11-18

原文原文链接

概述

多任务处理在现代计算机操做系统中几乎已经是一项必备的功能了。在许多状况下，让计算机同时去作几件事情，不只是由于计算机的运算能力强大了，还有一个很重要的缘由是计算机的运算速度与它的存储和通讯子系统速度的差距太大，大量的时间都花费在磁盘I/O、网络通讯或者数据库访问上。若是不但愿处理器在大部分时间里都处于等待其余资源的状态，就必须使用一些手段去把处理器的运算能力“压榨”出来，不然就会形成很大的浪费，而让计算机同时处理几项任务则是最容易想到、也被证实是很是有效的“压榨”手段。html

除了充分利用计算机处理器的能力外，一个服务端同时对多个客户端提供服务则是另外一个更具体的并发应用场景。衡量一个服务性能的高低好坏，每秒事务处理数（Transactions Per Second,TPS）是最重要的指标之一，它表明着一秒内服务端平均能响应的请求总数，而TPS值与程序的并发能力又有很是密切的关系。对于计算量相同的任务，程序线程并发协调得越有条不紊，效率天然就会越高；反之，线程之间频繁阻塞甚至死锁，将会大大下降程序的并发能力。java

服务端是Java语言最擅长的领域之一，这个领域的应用占了Java应用中最大的一块份额，不过如何写好并发应用程序却又是服务端程序开发的难点之一，处理好并发方面的问题一般须要更多的编码经验来支持。幸亏Java语言和虚拟机提供了许多工具，把并发编程的门槛下降了很多。而且各类中间件服务器、各种框架都努力地替程序员处理尽量多的线程并发细节，使得程序员在编码时能更关注业务逻辑，而不是花费大部分时间去关注此服务会同时被多少人调用、如何协调硬件资源。不管语言、中间件和框架如何先进，开发人员都不能指望它们能独立完成全部并发处理的事情，了解并发的内幕也是成为一个高级程序员不可缺乏的课程。程序员

Amdahl定律经过系统中并行化与串行化的比重来描述多处理器系统能得到的运算加速能力，摩尔定律则用于描述处理器晶体管数量与运行效率之间的发展关系。这两个定律的更替表明了近年来硬件发展从追求处理器频率到追求多核心并行处理的发展过程。数据库

硬件的效率与一致性

在正式讲解Java虚拟机并发相关的知识以前，咱们先花费一点时间去了解一下物理计算机中的并发问题，物理机遇到的并发问题与虚拟机中的状况有很多类似之处，物理机对并发的处理方案对于虚拟机的实现也有至关大的参考意义。编程

“让计算机并发执行若干个运算任务”与“更充分地利用计算机处理器的效能”之间的因果关系，看起来瓜熟蒂落，实际上它们之间的关系并无想象中的那么简单，其中一个重要的复杂性来源是绝大多数的运算任务都不可能只靠处理器“计算”就能完成，处理器至少要与内存交互，如读取运算数据、存储运算结果等，这个I/O操做是很难消除的（没法仅靠寄存器来完成全部运算任务）。因为计算机的存储设备与处理器的运算速度有几个数量级的差距，因此现代计算机系统都不得不加入一层读写速度尽量接近处理器运算速度的高速缓存（Cache）来做为内存与处理器之间的缓冲：将运算须要使用到的数据复制到缓存中，让运算能快速进行，当运算结束后再从缓存同步回内存之中，这样处理器就无须等待缓慢的内存读写了。c#

基于高速缓存的存储交互很好地解决了处理器与内存的速度矛盾，可是也为计算机系统带来更高的复杂度，由于它引入了一个新的问题：缓存一致性（Cache Coherence）。在多处理器系统中，每一个处理器都有本身的高速缓存，而它们又共享同一主内存（Main Memory），如图12-1所示。当多个处理器的运算任务都涉及同一块主内存区域时，将可能致使各自的缓存数据不一致，若是真的发生这种状况，那同步回到主内存时以谁的缓存数据为准呢？为了解决一致性的问题，须要各个处理器访问缓存时都遵循一些协议，在读写时要根据协议来进行操做，这类协议有MSI、MESI（Illinois Protocol）、MOSI、Synapse、Firefly及Dragon Protocol等。在本章中将会屡次提到的“内存模型”一词，能够理解为在特定的操做协议下，对特定的内存或高速缓存进行读写访问的过程抽象。不一样架构的物理机器能够拥有不同的内存模型，而Java虚拟机也有本身的内存模型，而且这里介绍的内存访问操做与硬件的缓存访问操做具备很高的可比性。数组

图　12-1　处理器、高速缓存、主内存间的交互关系缓存

除了增长高速缓存以外，为了使得处理器内部的运算单元能尽可能被充分利用，处理器可能会对输入代码进行乱序执行（Out-Of-Order Execution）优化，处理器会在计算以后将乱序执行的结果重组，保证该结果与顺序执行的结果是一致的，但并不保证程序中各个语句计算的前后顺序与输入代码中的顺序一致，所以，若是存在一个计算任务依赖另一个计算任务的中间结果，那么其顺序性并不能靠代码的前后顺序来保证。与处理器的乱序执行优化相似，Java虚拟机的即时编译器中也有相似的指令重排序（Instruction Reorder）优化。安全

Java内存模型

Java虚拟机规范中试图定义一种Java内存模型（Java Memory Model,JMM）来屏蔽掉各类硬件和操做系统的内存访问差别，以实现让Java程序在各类平台下都能达到一致的内存访问效果。在此以前，主流程序语言（如C/C++等）直接使用物理硬件和操做系统的内存模型，所以，会因为不一样平台上内存模型的差别，有可能致使程序在一套平台上并发彻底正常，而在另一套平台上并发访问却常常出错，所以在某些场景就必须针对不一样的平台来编写程序。服务器

定义Java内存模型并不是一件容易的事情，这个模型必须定义得足够严谨，才能让Java的并发内存访问操做不会产生歧义；可是，也必须定义得足够宽松，使得虚拟机的实现有足够的自由空间去利用硬件的各类特性（寄存器、高速缓存和指令集中某些特有的指令）来获取更好的执行速度。通过长时间的验证和修补，在JDK 1.5（实现了JSR-133[2]）发布后，Java内存模型已经成熟和完善起来了。

主内存与工做内存

Java内存模型的主要目标是定义程序中各个变量的访问规则，即在虚拟机中将变量存储到内存和从内存中取出变量这样的底层细节。此处的变量（Variables）与Java编程中所说的变量有所区别，它包括了实例字段、静态字段和构成数组对象的元素，但不包括局部变量与方法参数，由于后者是线程私有的，不会被共享，天然就不会存在竞争问题。为了得到较好的执行效能，Java内存模型并无限制执行引擎使用处理器的特定寄存器或缓存来和主内存进行交互，也没有限制即时编译器进行调整代码执行顺序这类优化措施。

Java内存模型规定了全部的变量都存储在主内存（Main Memory）中（此处的主内存与介绍物理硬件时的主内存名字同样，二者也能够互相类比，但此处仅是虚拟机内存的一部分）。每条线程还有本身的工做内存（Working Memory，可与前面讲的处理器高速缓存类比），线程的工做内存中保存了被该线程使用到的变量的主内存副本拷贝，线程对变量的全部操做（读取、赋值等）都必须在工做内存中进行，而不能直接读写主内存中的变量。不一样的线程之间也没法直接访问对方工做内存中的变量，线程间变量值的传递均须要经过主内存来完成，线程、主内存、工做内存三者的交互关系如图12-2所示。

图　12-2　线程、主内存、工做内存三者的交互关系（请与图12-1对比）

注：

若是局部变量是一个reference类型，它引用的对象在Java堆中可被各个线程共享，可是reference自己在Java栈的局部变量表中，它是线程私有的。
“拷贝副本”，如“假设线程中访问一个10MB的对象，也会把这10MB的内存复制一份拷贝出来吗？”，事实上并不会如此，这个对象的引用、对象中某个在线程访问到的字段是有可能存在拷贝的，但不会有虚拟机实现成把整个对象拷贝A一次。
volatile变量依然有工做内存的拷贝，可是因为它特殊的操做顺序性规定，因此看起来如同直接在主内存中读写访问通常，所以这里的描述对于volatile也并不存在例外。
除了实例数据，Java堆还保存了对象的其余信息，对于HotSpot虚拟机来说，有Mark Word（存储对象哈希码、GC标志、GC年龄、同步锁等信息）、Klass Point（指向存储类型元数据的指针）及一些用于字节对齐补白的填充数据（若是实例数据恰好知足8字节对齐的话，则能够不存在补白）。

内存间交互操做

关于主内存与工做内存之间具体的交互协议，即一个变量如何从主内存拷贝到工做内存、如何从工做内存同步回主内存之类的实现细节，Java内存模型中定义了如下8种操做来完成，虚拟机实现时必须保证下面说起的每一种操做都是原子的、不可再分的（对于double和long类型的变量来讲，load、store、read和write操做在某些平台上容许有例外，这个问题后文会讲）。

lock（锁定）：做用于主内存的变量，它把一个变量标识为一条线程独占的状态。
unlock（解锁）：做用于主内存的变量，它把一个处于锁定状态的变量释放出来，释放后的变量才能够被其余线程锁定。
read（读取）：做用于主内存的变量，它把一个变量的值从主内存传输到线程的工做内存中，以便随后的load动做使用。
load（载入）：做用于工做内存的变量，它把read操做从主内存中获得的变量值放入工做内存的变量副本中。
use（使用）：做用于工做内存的变量，它把工做内存中一个变量的值传递给执行引擎，每当虚拟机遇到一个须要使用到变量的值的字节码指令时将会执行这个操做。
assign（赋值）：做用于工做内存的变量，它把一个从执行引擎接收到的值赋给工做内存的变量，每当虚拟机遇到一个给变量赋值的字节码指令时执行这个操做。
store（存储）：做用于工做内存的变量，它把工做内存中一个变量的值传送到主内存中，以便随后的write操做使用。
write（写入）：做用于主内存的变量，它把store操做从工做内存中获得的变量的值放入主内存的变量中。

若是要把一个变量从主内存复制到工做内存，那就要顺序地执行read和load操做，若是要把变量从工做内存同步回主内存，就要顺序地执行store和write操做。注意，Java内存模型只要求上述两个操做必须按顺序执行，而没有保证是连续执行。也就是说，read与load之间、store与write之间是可插入其余指令的，如对主内存中的变量a、b进行访问时，一种可能出现顺序是read a、read b、load b、load a。除此以外，Java内存模型还规定了在执行上述8种基本操做时必须知足以下规则：

不容许read和load、store和write操做之一单独出现，即不容许一个变量从主内存读取了但工做内存不接受，或者从工做内存发起回写了但主内存不接受的状况出现。
不容许一个线程丢弃它的最近的assign操做，即变量在工做内存中改变了以后必须把该变化同步回主内存。
不容许一个线程无缘由地（没有发生过任何assign操做）把数据从线程的工做内存同步回主内存中。
一个新的变量只能在主内存中“诞生”，不容许在工做内存中直接使用一个未被初始化（load或assign）的变量，换句话说，就是对一个变量实施use、store操做以前，必须先执行过了assign和load操做。
一个变量在同一个时刻只容许一条线程对其进行lock操做，但lock操做能够被同一条线程重复执行屡次，屡次执行lock后，只有执行相同次数的unlock操做，变量才会被解锁。
若是对一个变量执行lock操做，那将会清空工做内存中此变量的值，在执行引擎使用这个变量前，须要从新执行load或assign操做初始化变量的值。
若是一个变量事先没有被lock操做锁定，那就不容许对它执行unlock操做，也不容许去unlock一个被其余线程锁定住的变量。
对一个变量执行unlock操做以前，必须先把此变量同步回主内存中（执行store、write操做）。

这8种内存访问操做以及上述规则限定，再加上稍后介绍的对volatile的一些特殊规定，就已经彻底肯定了Java程序中哪些内存访问操做在并发下是安全的。因为这种定义至关严谨但又十分烦琐，实践起来很麻烦，因此在后文将介绍这种定义的一个等效判断原则——先行发生原则，用来肯定一个访问在并发环境下是否安全。

注：
基于理解难度和严谨性考虑，最新的JSR-133文档中，已经放弃采用这8种操做去定义Java内存模型的访问协议了（仅是描述方式改变了，Java内存模型并无改变）。

对于volatile型变量的特殊规则

关键字volatile能够说是Java虚拟机提供的最轻量级的同步机制，可是它并不容易彻底被正确、完整地理解，以致于许多程序员都习惯不去使用它，遇到须要处理多线程数据竞争问题的时候一概使用synchronized来进行同步。了解volatile变量的语义对后面了解多线程操做的其余特性颇有意义，在本节中咱们将多花费一些时间去弄清楚volatile的语义究竟是什么。

Java内存模型对volatile专门定义了一些特殊的访问规则，在介绍这些比较拗口的规则定义以前，先用不那么正式但通俗易懂的语言来介绍一下这个关键字的做用。

当一个变量定义为volatile以后，它将具有两种特性，第一是保证此变量对全部线程的可见性，这里的“可见性”是指当一条线程修改了这个变量的值，新值对于其余线程来讲是能够当即得知的。而普通变量不能作到这一点，普通变量的值在线程间传递均须要经过主内存来完成，例如，线程A修改一个普通变量的值，而后向主内存进行回写，另一条线程B在线程A回写完成了以后再从主内存进行读取操做，新变量值才会对线程B可见。

关于volatile变量的可见性，常常会被开发人员误解，认为如下描述成立：“volatile变量对全部线程是当即可见的，对volatile变量全部的写操做都能马上反应到其余线程之中，换句话说，volatile变量在各个线程中是一致的，因此基于volatile变量的运算在并发下是安全的”。这句话的论据部分并无错，可是其论据并不能得出“基于volatile变量的运算在并发下是安全的”这个结论。volatile变量在各个线程的工做内存中不存在一致性问题（在各个线程的工做内存中，volatile变量也能够存在不一致的状况，但因为每次使用以前都要先刷新，执行引擎看不到不一致的状况，所以能够认为不存在一致性问题），可是Java里面的运算并不是原子操做，致使volatile变量的运算在并发下同样是不安全的，咱们能够经过一段简单的演示来讲明缘由，请看代码清单12-1中演示的例子。

代码清单12-1　volatile的运算

/**
 * volatile变量自增运算测试
 * 
 * @author zzm
 */
public class VolatileTest {

    public static volatile int race = 0;

    public static void increase() {
        race++;
    }

    private static final int THREADS_COUNT = 20;

    public static void main(String[] args) {
        Thread[] threads = new Thread[THREADS_COUNT];
        for (int i = 0; i < THREADS_COUNT; i++) {
            threads[i] = new Thread(new Runnable() {
                @Override
                public void run() {
                    for (int i = 0; i < 10000; i++) {
                        increase();
                    }
                }
            });
            threads[i].start();
        }

        // 等待全部累加线程都结束
        while (Thread.activeCount() > 1)
            Thread.yield();

        System.out.println(race);
    }
}

这段代码发起了20个线程，每一个线程对race变量进行10000次自增操做，若是这段代码可以正确并发的话，最后输出的结果应该是200000。读者运行完这段代码以后，并不会得到指望的结果，并且会发现每次运行程序，输出的结果都不同，都是一个小于200000的数字，这是为何呢？

问题就出如今自增运算“race++”之中，咱们用Javap反编译这段代码后会获得代码清单12-2，发现只有一行代码的increase（）方法在Class文件中是由4条字节码指令构成的（return指令不是由race++产生的，这条指令能够不计算），从字节码层面上很容易就分析出并发失败的缘由了：当getstatic指令把race的值取到操做栈顶时，volatile关键字保证了race的值在此时是正确的，可是在执行iconst_一、iadd这些指令的时候，其余线程可能已经把race的值加大了，而在操做栈顶的值就变成了过时的数据，因此putstatic指令执行后就可能把较小的race值同步回主内存之中。

代码清单12-2　VolatileTest的字节码

public static void increase（）；
Code：
Stack=2，Locals=0，Args_size=0
0：getstatic#13；//Field race：I
3：iconst_1
4：iadd
5：putstatic#13；//Field race：I
8：return
LineNumberTable：
line 14：0
line 15：8

客观地说，笔者在此使用字节码来分析并发问题，仍然是不严谨的，由于即便编译出来只有一条字节码指令，也并不意味执行这条指令就是一个原子操做。一条字节码指令在解释执行时，解释器将要运行许多行代码才能实现它的语义，若是是编译执行，一条字节码指令也可能转化成若干条本地机器码指令，此处使用-XX：+PrintAssembly参数输出反汇编来分析会更加严谨一些，但考虑到读者阅读的方便，而且字节码已经能说明问题，因此此处使用字节码来分析。

因为volatile变量只能保证可见性，在不符合如下两条规则的运算场景中，咱们仍然要经过加锁（使用synchronized或java.util.concurrent中的原子类）来保证原子性。

运算结果并不依赖变量的当前值，或者可以确保只有单一的线程修改变量的值。
变量不须要与其余的状态变量共同参与不变约束。

而在像以下的代码清单12-3所示的这类场景就很适合使用volatile变量来控制并发，当shutdown（）方法被调用时，能保证全部线程中执行的doWork（）方法都当即停下来。

代码清单12-3　volatile的使用场景

volatile boolean shutdownRequested；
public void shutdown（）{
    shutdownRequested=true；
}
public void doWork（）{
    while（！shutdownRequested）{
        //do stuff
    }
}

使用volatile变量的第二个语义是禁止指令重排序优化，普通的变量仅仅会保证在该方法的执行过程当中全部依赖赋值结果的地方都能获取到正确的结果，而不能保证变量赋值操做的顺序与程序代码中的执行顺序一致。由于在一个线程的方法执行过程当中没法感知到这点，这也就是Java内存模型中描述的所谓的“线程内表现为串行的语义”（Within-Thread As-If-Serial Semantics）。

上面的描述仍然不太容易理解，咱们仍是继续经过一个例子来看看为什么指令重排序会干扰程序的并发执行，演示程序如代码清单12-4所示。

代码清单12-4　指令重排序

Map configOptions；
char[]configText；
//此变量必须定义为volatile
volatile boolean initialized=false；
//假设如下代码在线程A中执行
//模拟读取配置信息，当读取完成后将initialized设置为true以通知其余线程配置可用
configOptions=new HashMap（）；
configText=readConfigFile（fileName）；
processConfigOptions（configText,configOptions）；
initialized=true；
//假设如下代码在线程B中执行
//等待initialized为true，表明线程A已经把配置信息初始化完成
while（！initialized）{
    sleep（）；
}
//使用线程A中初始化好的配置信息
doSomethingWithConfig（）；

代码清单12-4中的程序是一段伪代码，其中描述的场景十分常见，只是咱们在处理配置文件时通常不会出现并发而已。若是定义initialized变量时没有使用volatile修饰，就可能会因为指令重排序的优化，致使位于线程A中最后一句的代码“initialized=true”被提早执行（这里虽然使用Java做为伪代码，但所指的重排序优化是机器级的优化操做，提早执行是指这句话对应的汇编代码被提早执行），这样在线程B中使用配置信息的代码就可能出现错误，而volatile关键字则能够避免此类状况的发生。

指令重排序是并发编程中最容易让开发人员产生疑惑的地方，除了上面伪代码的例子以外，笔者再举一个能够实际操做运行的例子来分析volatile关键字是如何禁止指令重排序优化的。代码清单12-5是一段标准的DCL单例代码，能够观察加入volatile和未加入volatile关键字时所生成汇编代码的差异（如何得到JIT的汇编代码，请参考4.2.7节）。

代码清单12-5　DCL单例模式

public class Singleton {

    private volatile static Singleton instance;

    public static Singleton getInstance() {
        if (instance == null) {
            synchronized (Singleton.class) {
                if (instance == null) {
                    instance = new Singleton();
                }
            }
        }
        return instance;
    }

    public static void main(String[] args) {
            Singleton.getInstance();
    }
}

编译后，这段代码对instance变量赋值部分如代码清单12-6所示。

代码清单12-6

0x01a3de0f：mov$0x3375cdb0，%esi         ；……beb0cd75 33
                                        ；{oop（'Singleton'）}
0x01a3de14：mov%eax，0x150（%esi）      ；……89865001 0000
0x01a3de1a：shr$0x9，%esi                ；……c1ee09
0x01a3de1d：movb$0x0，0x1104800（%esi）    ；……c6860048 100100
0x01a3de24：lock addl$0x0，（%esp）        ；……f0830424 00
                                        ；*putstatic instance
                                        ；-
Singleton：getInstance@24

经过对比就会发现，关键变化在于有volatile修饰的变量，赋值后（前面mov%eax，0x150（%esi）这句即是赋值操做）多执行了一个“lock addl ＄0x0，（%esp）”操做，这个操做至关于一个内存屏障（Memory Barrier或Memory Fence，指重排序时不能把后面的指令重排序到内存屏障以前的位置），只有一个CPU访问内存时，并不须要内存屏障；但若是有两个或更多CPU访问同一块内存，且其中有一个在观测另外一个，就须要内存屏障来保证一致性了。这句指令中的“addl ＄0x0，（%esp）”（把ESP寄存器的值加0）显然是一个空操做（采用这个空操做而不是空操做指令nop是由于IA32手册规定lock前缀不容许配合nop指令使用），关键在于lock前缀，查询IA32手册，它的做用是使得本CPU的Cache写入了内存，该写入动做也会引发别的CPU或者别的内核无效化（Invalidate）其Cache，这种操做至关于对Cache中的变量作了一次前面介绍Java内存模式中所说的“store和write”操做。因此经过这样一个空操做，可以让前面volatile变量的修改对其余CPU当即可见。

那为什么说它禁止指令重排序呢？从硬件架构上讲，指令重排序是指CPU采用了容许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理。但并非说指令任意重排，CPU须要能正确处理指令依赖状况以保障程序能得出正确的执行结果。譬如指令1把地址A中的值加10，指令2把地址A中的值乘以2，指令3把地址B中的值减去3，这时指令1和指令2是有依赖的，它们之间的顺序不能重排——（A+10）*2与A*2+10显然不相等，但指令3能够重排到指令一、2以前或者中间，只要保证CPU执行后面依赖到A、B值的操做时能获取到正确的A和B值便可。因此在本内CPU中，重排序看起来依然是有序的。所以，lock addl＄0x0，（%esp）指令把修改同步到内存时，意味着全部以前的操做都已经执行完成，这样便造成了“指令重排序没法越过内存屏障”的效果。

解决了volatile的语义问题，再来看看在众多保障并发安全的工具中选用volatile的意义——它能让咱们的代码比使用其余的同步工具更快吗？在某些状况下，volatile的同步机制的性能确实要优于锁（使用synchronized关键字或java.util.concurrent包里面的锁），可是因为虚拟机对锁实行的许多消除和优化，使得咱们很难量化地认为volatile就会比synchronized快多少。若是让volatile本身与本身比较，那能够肯定一个原则：volatile变量读操做的性能消耗与普通变量几乎没有什么差异，可是写操做则可能会慢一些，由于它须要在本地代码中插入许多内存屏障指令来保证处理器不发生乱序执行。不过即使如此，大多数场景下volatile的总开销仍然要比锁低，咱们在volatile与锁之中选择的惟一依据仅仅是volatile的语义可否知足使用场景的需求。

最后，咱们回头看一下Java内存模型中对volatile变量定义的特殊规则。假定T表示一个线程，V和W分别表示两个volatile型变量，那么在进行read、load、use、assign、store和write操做时须要知足以下规则：

只有当线程T对变量V执行的前一个动做是load的时候，线程T才能对变量V执行use动做；而且，只有当线程T对变量V执行的后一个动做是use的时候，线程T才能对变量V执行load动做。线程T对变量V的use动做能够认为是和线程T对变量V的load、read动做相关联，必须连续一块儿出现（这条规则要求在工做内存中，每次使用V前都必须先从主内存刷新最新的值，用于保证能看见其余线程对变量V所作的修改后的值）。
只有当线程T对变量V执行的前一个动做是assign的时候，线程T才能对变量V执行store动做；而且，只有当线程T对变量V执行的后一个动做是store的时候，线程T才能对变量V执行assign动做。线程T对变量V的assign动做能够认为是和线程T对变量V的store、write动做相关联，必须连续一块儿出现（这条规则要求在工做内存中，每次修改V后都必须马上同步回主内存中，用于保证其余线程能够看到本身对变量V所作的修改）。

注：
volatile屏蔽指令重排序的语义在JDK 1.5中才被彻底修复，此前的JDK中即便将变量声明为volatile也仍然不能彻底避免重排序所致使的问题（主要是volatile变量先后的代码仍然存在重排序问题），这点也是在JDK 1.5以前的Java中没法安全地使用DCL（双锁检测）来实现单例模式的缘由。
Doug Lea列出了各类处理器架构下的内存屏障指令：http://g.oswego.edu/dl/jmm/cookbook.html。

对于long和double型变量的特殊规则

Java内存模型要求lock、unlock、read、load、assign、use、store、write这8个操做都具备原子性，可是对于64位的数据类型（long和double），在模型中特别定义了一条相对宽松的规定：容许虚拟机将没有被volatile修饰的64位数据的读写操做划分为两次32位的操做来进行，即容许虚拟机实现选择能够不保证64位数据类型的load、store、read和write这4个操做的原子性，这点就是所谓的long和double的非原子性协定（Nonatomic Treatment of double and long Variables）。

若是有多个线程共享一个并未声明为volatile的long或double类型的变量，而且同时对它们进行读取和修改操做，那么某些线程可能会读取到一个既非原值，也不是其余线程修改值的表明了“半个变量”的数值。

不过这种读取到“半个变量”的状况很是罕见（在目前商用Java虚拟机中不会出现），由于Java内存模型虽然容许虚拟机不把long和double变量的读写实现成原子操做，但容许虚拟机选择把这些操做实现为具备原子性的操做，并且还“强烈建议”虚拟机这样实现。在实际开发中，目前各类平台下的商用虚拟机几乎都选择把64位数据的读写操做做为原子操做来对待，所以咱们在编写代码时通常不须要把用到的long和double变量专门声明为volatile。

原子性、可见性与有序性

介绍完Java内存模型的相关操做和规则，咱们再总体回顾一下这个模型的特征。Java内存模型是围绕着在并发过程当中如何处理原子性、可见性和有序性这3个特征来创建的，咱们逐个来看一下哪些操做实现了这3个特性。

原子性（Atomicity）：由Java内存模型来直接保证的原子性变量操做包括read、load、assign、use、store和write，咱们大体能够认为基本数据类型的访问读写是具有原子性的（例外就是long和double的非原子性协定，读者只要知道这件事情就能够了，无须太过在乎这些几乎不会发生的例外状况）。

若是应用场景须要一个更大范围的原子性保证（常常会遇到），Java内存模型还提供了lock和unlock操做来知足这种需求，尽管虚拟机未把lock和unlock操做直接开放给用户使用，可是却提供了更高层次的字节码指令monitorenter和monitorexit来隐式地使用这两个操做，这两个字节码指令反映到Java代码中就是同步块——synchronized关键字，所以在synchronized块之间的操做也具有原子性。

可见性（Visibility）：可见性是指当一个线程修改了共享变量的值，其余线程可以当即得知这个修改。上文在讲解volatile变量的时候咱们已详细讨论过这一点。Java内存模型是经过在变量修改后将新值同步回主内存，在变量读取前从主内存刷新变量值这种依赖主内存做为传递媒介的方式来实现可见性的，不管是普通变量仍是volatile变量都是如此，普通变量与volatile变量的区别是，volatile的特殊规则保证了新值能当即同步到主内存，以及每次使用前当即从主内存刷新。所以，能够说volatile保证了多线程操做时变量的可见性，而普通变量则不能保证这一点。

除了volatile以外，Java还有两个关键字能实现可见性，即synchronized和final。同步块的可见性是由“对一个变量执行unlock操做以前，必须先把此变量同步回主内存中（执行store、write操做）”这条规则得到的，而final关键字的可见性是指：被final修饰的字段在构造器中一旦初始化完成，而且构造器没有把“this”的引用传递出去（this引用逃逸是一件很危险的事情，其余线程有可能经过这个引用访问到“初始化了一半”的对象），那在其余线程中就能看见final字段的值。如代码清单12-7所示，变量i与j都具有可见性，它们无须同步就能被其余线程正确访问。

代码清单12-7　final与可见性

public static final int i；
public final int j；
static{
    i=0；
    //do something
}
{
    //也能够选择在构造函数中初始化
    j=0；
    //do something
}

有序性（Ordering）：Java内存模型的有序性在前面讲解volatile时也详细地讨论过了，Java程序中自然的有序性能够总结为一句话：若是在本线程内观察，全部的操做都是有序的；若是在一个线程中观察另外一个线程，全部的操做都是无序的。前半句是指“线程内表现为串行的语义”（Within-Thread As-If-Serial Semantics），后半句是指“指令重排序”现象和“工做内存与主内存同步延迟”现象。

Java语言提供了volatile和synchronized两个关键字来保证线程之间操做的有序性，volatile关键字自己就包含了禁止指令重排序的语义，而synchronized则是由“一个变量在同一个时刻只容许一条线程对其进行lock操做”这条规则得到的，这条规则决定了持有同一个锁的两个同步块只能串行地进入。

介绍完并发中3种重要的特性后，有没有发现synchronized关键字在须要这3种特性的时候均可以做为其中一种的解决方案？看起来很“万能”吧。的确，大部分的并发控制操做都能使用synchronized来完成。synchronized的“万能”也间接造就了它被程序员滥用的局面，越“万能”的并发控制，一般会伴随着越大的性能影响，这点咱们将在讲解虚拟机锁优化时再介绍。

先行发生原则

若是Java内存模型中全部的有序性都仅仅靠volatile和synchronized来完成，那么有一些操做将会变得很烦琐，可是咱们在编写Java并发代码的时候并无感受到这一点，这是由于Java语言中有一个“先行发生”（happens-before）的原则。这个原则很是重要，它是判断数据是否存在竞争、线程是否安全的主要依据，依靠这个原则，咱们能够经过几条规则一揽子地解决并发环境下两个操做之间是否可能存在冲突的全部问题。

如今就来看看“先行发生”原则指的是什么。先行发生是Java内存模型中定义的两项操做之间的偏序关系，若是说操做A先行发生于操做B，其实就是说在发生操做B以前，操做A产生的影响能被操做B观察到，“影响”包括修改了内存中共享变量的值、发送了消息、调用了方法等。这句话不难理解，但它意味着什么呢？咱们能够举个例子来讲明一下，如代码清单12-8中所示的这3句伪代码。

代码清单12-8　先行发生原则示例1

//如下操做在线程A中执行
i=1；
//如下操做在线程B中执行
j=i；
//如下操做在线程C中执行
i=2；

假设线程A中的操做“i=1”先行发生于线程B的操做“j=i”，那么能够肯定在线程B的操做执行后，变量j的值必定等于1，得出这个结论的依据有两个：一是根据先行发生原则，“i=1”的结果能够被观察到；二是线程C还没“登场”，线程A操做结束以后没有其余线程会修改变量i的值。如今再来考虑线程C，咱们依然保持线程A和线程B之间的先行发生关系，而线程C出如今线程A和线程B的操做之间，可是线程C与线程B没有先行发生关系，那j的值会是多少呢？答案是不肯定！1和2都有可能，由于线程C对变量i的影响可能会被线程B观察到，也可能不会，这时候线程B就存在读取到过时数据的风险，不具有多线程安全性。

下面是Java内存模型下一些“自然的”先行发生关系，这些先行发生关系无须任何同步器协助就已经存在，能够在编码中直接使用。若是两个操做之间的关系不在此列，而且没法从下列规则推导出来的话，它们就没有顺序性保障，虚拟机能够对它们随意地进行重排序。

程序次序规则（Program Order Rule）：在一个线程内，按照程序代码顺序，书写在前面的操做先行发生于书写在后面的操做。准确地说，应该是控制流顺序而不是程序代码顺序，由于要考虑分支、循环等结构。
管程锁定规则（Monitor Lock Rule）：一个unlock操做先行发生于后面对同一个锁的lock操做。这里必须强调的是同一个锁，而“后面”是指时间上的前后顺序。
volatile变量规则（Volatile Variable Rule）：对一个volatile变量的写操做先行发生于后面对这个变量的读操做，这里的“后面”一样是指时间上的前后顺序。
线程启动规则（Thread Start Rule）：Thread对象的start（）方法先行发生于此线程的每个动做。
线程终止规则（Thread Termination Rule）：线程中的全部操做都先行发生于对此线程的终止检测，咱们能够经过Thread.join（）方法结束、Thread.isAlive（）的返回值等手段检测到线程已经终止执行。
线程中断规则（Thread Interruption Rule）：对线程interrupt（）方法的调用先行发生于被中断线程的代码检测到中断事件的发生，能够经过Thread.interrupted（）方法检测到是否有中断发生。
对象终结规则（Finalizer Rule）：一个对象的初始化完成（构造函数执行结束）先行发生于它的finalize（）方法的开始。
传递性（Transitivity）：若是操做A先行发生于操做B，操做B先行发生于操做C，那就能够得出操做A先行发生于操做C的结论。

Java语言无须任何同步手段保障就能成立的先行发生规则就只有上面这些了，演示一下如何使用这些规则去断定操做间是否具有顺序性，对于读写共享变量的操做来讲，就是线程是否安全，读者还能够从下面这个例子中感觉一下“时间上的前后顺序”与“先行发生”之间有什么不一样。演示例子如代码清单12-9所示。

代码清单12-9　先行发生原则示例2

private int value=0；
pubilc void setValue（int value）{
    this.value=value；
}
public int getValue（）{
    return value；
}

代码清单12-9中显示的是一组再普通不过的getter/setter方法，假设存在线程A和B，线程A先（时间上的前后）调用了“setValue（1）”，而后线程B调用了同一个对象的“getValue（）”，那么线程B收到的返回值是什么？

咱们依次分析一下先行发生原则中的各项规则，因为两个方法分别由线程A和线程B调用，不在一个线程中，因此程序次序规则在这里不适用；因为没有同步块，天然就不会发生lock和unlock操做，因此管程锁定规则不适用；因为value变量没有被volatile关键字修饰，因此volatile变量规则不适用；后面的线程启动、终止、中断规则和对象终结规则也和这里彻底没有关系。由于没有一个适用的先行发生规则，因此最后一条传递性也无从谈起，所以咱们能够断定尽管线程A在操做时间上先于线程B，可是没法肯定线程B中“getValue（）”方法的返回结果，换句话说，这里面的操做不是线程安全的。

那怎么修复这个问题呢？咱们至少有两种比较简单的方案能够选择：要么把getter/setter方法都定义为synchronized方法，这样就能够套用管程锁定规则；要么把value定义为volatile变量，因为setter方法对value的修改不依赖value的原值，知足volatile关键字使用场景，这样就能够套用volatile变量规则来实现先行发生关系。

经过上面的例子，咱们能够得出结论：一个操做“时间上的先发生”不表明这个操做会是“先行发生”，那若是一个操做“先行发生”是否就能推导出这个操做一定是“时间上的先发生”呢？很遗憾，这个推论也是不成立的，一个典型的例子就是屡次提到的“指令重排序”，演示例子如代码清单12-10所示。

代码清单12-10　先行发生原则示例3

//如下操做在同一个线程中执行
int i=1；
int j=2；

代码清单12-10的两条赋值语句在同一个线程之中，根据程序次序规则，“int i=1”的操做先行发生于“int j=2”，可是“int j=2”的代码彻底可能先被处理器执行，这并不影响先行发生原则的正确性，由于咱们在这条线程之中没有办法感知到这点。

上面两个例子综合起来证实了一个结论：时间前后顺序与先行发生原则之间基本没有太大的关系，因此咱们衡量并发安全问题的时候不要受到时间顺序的干扰，一切必须以先行发生原则为准。

Java与线程

并发不必定要依赖多线程（如PHP中很常见的多进程并发），可是在Java里面谈论并发，大多数都与线程脱不开关系。既然咱们这本书探讨的话题是Java虚拟机的特性，那讲到Java线程，咱们就从Java线程在虚拟机中的实现开始讲起。

线程的实现

咱们知道，线程是比进程更轻量级的调度执行单位，线程的引入，能够把一个进程的资源分配和执行调度分开，各个线程既能够共享进程资源（内存地址、文件I/O等），又能够独立调度（线程是CPU调度的基本单位）。

主流的操做系统都提供了线程实现，Java语言则提供了在不一样硬件和操做系统平台下对线程操做的统一处理，每一个已经执行start（）且还未结束的java.lang.Thread类的实例就表明了一个线程。咱们注意到Thread类与大部分的Java API有显著的差异，它的全部关键方法都是声明为Native的。在Java API中，一个Native方法每每意味着这个方法没有使用或没法使用平台无关的手段来实现（固然也多是为了执行效率而使用Native方法，不过，一般最高效率的手段也就是平台相关的手段）。正由于如此，做者把本节的标题定为“线程的实现”而不是“Java线程的实现”。

实现线程主要有3种方式：使用内核线程实现、使用用户线程实现和使用用户线程加轻量级进程混合实现。

1.使用内核线程实现

内核线程（Kernel-Level Thread,KLT）就是直接由操做系统内核（Kernel，下称内核）支持的线程，这种线程由内核来完成线程切换，内核经过操纵调度器（Scheduler）对线程进行调度，并负责将线程的任务映射到各个处理器上。每一个内核线程能够视为内核的一个分身，这样操做系统就有能力同时处理多件事情，支持多线程的内核就叫作多线程内核（Multi-Threads Kernel）。

程序通常不会直接去使用内核线程，而是去使用内核线程的一种高级接口——轻量级进程（Light Weight Process,LWP），轻量级进程就是咱们一般意义上所讲的线程，因为每一个轻量级进程都由一个内核线程支持，所以只有先支持内核线程，才能有轻量级进程。这种轻量级进程与内核线程之间1:1的关系称为一对一的线程模型，如图12-3所示。

图　12-3　轻量级进程与内核线程之间1:1的关系

因为内核线程的支持，每一个轻量级进程都成为一个独立的调度单元，即便有一个轻量级进程在系统调用中阻塞了，也不会影响整个进程继续工做，可是轻量级进程具备它的局限性：首先，因为是基于内核线程实现的，因此各类线程操做，如建立、析构及同步，都须要进行系统调用。而系统调用的代价相对较高，须要在用户态（User Mode）和内核态（Kernel Mode）中来回切换。其次，每一个轻量级进程都须要有一个内核线程的支持，所以轻量级进程要消耗必定的内核资源（如内核线程的栈空间），所以一个系统支持轻量级进程的数量是有限的。

2.使用用户线程实现

从广义上来说，一个线程只要不是内核线程，就能够认为是用户线程（User Thread,UT），所以，从这个定义上来说，轻量级进程也属于用户线程，但轻量级进程的实现始终是创建在内核之上的，许多操做都要进行系统调用，效率会受到限制。

而狭义上的用户线程指的是彻底创建在用户空间的线程库上，系统内核不能感知线程存在的实现。用户线程的创建、同步、销毁和调度彻底在用户态中完成，不须要内核的帮助。若是程序实现得当，这种线程不须要切换到内核态，所以操做能够是很是快速且低消耗的，也能够支持规模更大的线程数量，部分高性能数据库中的多线程就是由用户线程实现的。这种进程与用户线程之间1：N的关系称为一对多的线程模型，如图12-4所示。

图　12-4　进程与用户线程之间1：N的关系

使用用户线程的优点在于不须要系统内核支援，劣势也在于没有系统内核的支援，全部的线程操做都须要用户程序本身处理。线程的建立、切换和调度都是须要考虑的问题，并且因为操做系统只把处理器资源分配到进程，那诸如“阻塞如何处理”、“多处理器系统中如何将线程映射到其余处理器上”这类问题解决起来将会异常困难，甚至不可能完成。于是使用用户线程实现的程序通常都比较复杂，除了之前在不支持多线程的操做系统中（如DOS）的多线程程序与少数有特殊需求的程序外，如今使用用户线程的程序愈来愈少了，Java、Ruby等语言都曾经使用过用户线程，最终又都放弃使用它。

3.使用用户线程加轻量级进程混合实现

线程除了依赖内核线程实现和彻底由用户程序本身实现以外，还有一种将内核线程与用户线程一块儿使用的实现方式。在这种混合实现下，既存在用户线程，也存在轻量级进程。用户线程仍是彻底创建在用户空间中，所以用户线程的建立、切换、析构等操做依然廉价，而且能够支持大规模的用户线程并发。而操做系统提供支持的轻量级进程则做为用户线程和内核线程之间的桥梁，这样能够使用内核提供的线程调度功能及处理器映射，而且用户线程的系统调用要经过轻量级线程来完成，大大下降了整个进程被彻底阻塞的风险。在这种混合模式中，用户线程与轻量级进程的数量比是不定的，即为N：M的关系，如图12-5所示，这种就是多对多的线程模型。

许多UNIX系列的操做系统，如Solaris、HP-UX等都提供了N：M的线程模型实现。

图　12-5　用户线程与轻量级进程之间N：M的关系

4.Java线程的实现

Java线程在JDK 1.2以前，是基于称为“绿色线程”（Green Threads）的用户线程实现的，而在JDK 1.2中，线程模型替换为基于操做系统原生线程模型来实现。所以，在目前的JDK版本中，操做系统支持怎样的线程模型，在很大程度上决定了Java虚拟机的线程是怎样映射的，这点在不一样的平台上没有办法达成一致，虚拟机规范中也并未限定Java线程须要使用哪一种线程模型来实现。线程模型只对线程的并发规模和操做成本产生影响，对Java程序的编码和运行过程来讲，这些差别都是透明的。

对于Sun JDK来讲，它的Windows版与Linux版都是使用一对一的线程模型实现的，一条Java线程就映射到一条轻量级进程之中，由于Windows和Linux系统提供的线程模型就是一对一的。

而在Solaris平台中，因为操做系统的线程特性能够同时支持一对一（经过Bound Threads或Alternate Libthread实现）及多对多（经过LWP/Thread Based Synchronization实现）的线程模型，所以在Solaris版的JDK中也对应提供了两个平台专有的虚拟机参数：-XX：+UseLWPSynchronization（默认值）和-XX：+UseBoundThreads来明确指定虚拟机使用哪一种线程模型。

Windows下有纤程包（Fiber Package），Linux下也有NGPT（在2.4内核的年代）来实现N：M模型，可是它们都没有成为主流。

Java线程调度

线程调度是指系统为线程分配处理器使用权的过程，主要调度方式有两种，分别是协同式线程调度（Cooperative Threads-Scheduling）和抢占式线程调度（Preemptive Threads-Scheduling）。

若是使用协同式调度的多线程系统，线程的执行时间由线程自己来控制，线程把本身的工做执行完了以后，要主动通知系统切换到另一个线程上。协同式多线程的最大好处是实现简单，并且因为线程要把本身的事情干完后才会进行线程切换，切换操做对线程本身是可知的，因此没有什么线程同步的问题。Lua语言中的“协同例程”就是这类实现。它的坏处也很明显：线程执行时间不可控制，甚至若是一个线程编写有问题，一直不告知系统进行线程切换，那么程序就会一直阻塞在那里。好久之前的Windows 3.x系统就是使用协同式来实现多进程多任务的，至关不稳定，一个进程坚持不让出CPU执行时间就可能会致使整个系统崩溃。

若是使用抢占式调度的多线程系统，那么每一个线程将由系统来分配执行时间，线程的切换不禁线程自己来决定（在Java中，Thread.yield（）可让出执行时间，可是要获取执行时间的话，线程自己是没有什么办法的）。在这种实现线程调度的方式下，线程的执行时间是系统可控的，也不会有一个线程致使整个进程阻塞的问题，Java使用的线程调度方式就是抢占式调度。与前面所说的Windows 3.x的例子相对，在Windows 9x/NT内核中就是使用抢占式来实现多进程的，当一个进程出了问题，咱们还能够使用任务管理器把这个进程“杀掉”，而不至于致使系统崩溃。

虽然Java线程调度是系统自动完成的，可是咱们仍是能够“建议”系统给某些线程多分配一点执行时间，另外的一些线程则能够少分配一点——这项操做能够经过设置线程优先级来完成。Java语言一共设置了10个级别的线程优先级（Thread.MIN_PRIORITY至Thread.MAX_PRIORITY），在两个线程同时处于Ready状态时，优先级越高的线程越容易被系统选择执行。

不过，线程优先级并非太靠谱，缘由是Java的线程是经过映射到系统的原生线程上来实现的，因此线程调度最终仍是取决于操做系统，虽然如今不少操做系统都提供线程优先级的概念，可是并不见得能与Java线程的优先级一一对应，如Solaris中有2147483648（232）种优先级，但Windows中就只有7种，比Java线程优先级多的系统还好说，中间留下一点空位就能够了，但比Java线程优先级少的系统，就不得不出现几个优先级相同的状况了，表12-1显示了Java线程优先级与Windows线程优先级之间的对应关系，Windows平台的JDK中使用了除THREAD_PRIORITY_IDLE以外的其他6种线程优先级。

上文说到“线程优先级并非太靠谱”，不只仅是说在一些平台上不一样的优先级实际会变得相同这一点，还有其余状况让咱们不能太依赖优先级：优先级可能会被系统自行改变。例如，在Windows系统中存在一个称为“优先级推动器”（Priority Boosting，固然它能够被关闭掉）的功能，它的大体做用就是当系统发现一个线程执行得特别“勤奋努力”的话，可能会越过线程优先级去为它分配执行时间。所以，咱们不能在程序中经过优先级来彻底准确地判断一组状态都为Ready的线程将会先执行哪个。

状态转换

Java语言定义了5种线程状态，在任意一个时间点，一个线程只能有且只有其中的一种状态，这5种状态分别以下。

新建（New）：建立后还没有启动的线程处于这种状态。
运行（Runable）：Runable包括了操做系统线程状态中的Running和Ready，也就是处于此状态的线程有可能正在执行，也有可能正在等待着CPU为它分配执行时间。
无限期等待（Waiting）：处于这种状态的线程不会被分配CPU执行时间，它们要等待被其余线程显式地唤醒。如下方法会让线程陷入无限期的等待状态：
- 没有设置Timeout参数的Object.wait（）方法。
- 没有设置Timeout参数的Thread.join（）方法。
- LockSupport.park（）方法。
限期等待（Timed Waiting）：处于这种状态的线程也不会被分配CPU执行时间，不过无须等待被其余线程显式地唤醒，在必定时间以后它们会由系统自动唤醒。如下方法会让线程进入限期等待状态：
- Thread.sleep（）方法。
- 设置了Timeout参数的Object.wait（）方法。
- 设置了Timeout参数的Thread.join（）方法。
- LockSupport.parkNanos（）方法。
- LockSupport.parkUntil（）方法。
阻塞（Blocked）：线程被阻塞了，“阻塞状态”与“等待状态”的区别是：“阻塞状态”在等待着获取到一个排他锁，这个事件将在另一个线程放弃这个锁的时候发生；而“等待状态”则是在等待一段时间，或者唤醒动做的发生。在程序等待进入同步区域的时候，线程将进入这种状态。
结束（Terminated）：已终止线程的线程状态，线程已经结束执行。

上述5种状态在遇到特定事件发生的时候将会互相转换，它们的转换关系如图12-6所示。

图　12-6　线程状态转换关系