深刻理解Java内存模型

时间 2019-11-13

标签深刻理解 java 内存模型栏目 Java 繁體版

原文原文链接

转载于：http://www.infoq.com/cn/articles/java-memory-model-1?utm_source=infoq&utm_medium=related_content_link&utm_campaign=relatedContent_articles_clk

深刻理解Java内存模型（一）——基础

并发编程模型的分类

在并发编程中，咱们须要处理两个关键问题：线程之间如何通讯及线程之间如何同步（这里的线程是指并发执行的活动实体）。通讯是指线程之间以何种机制来交换信息。在命令式编程中，线程之间的通讯机制有两种：共享内存和消息传递。java

在共享内存的并发模型里，线程之间共享程序的公共状态，线程之间经过写-读内存中的公共状态来隐式进行通讯。在消息传递的并发模型里，线程之间没有公共状态，线程之间必须经过明确的发送消息来显式进行通讯。c++

同步是指程序用于控制不一样线程之间操做发生相对顺序的机制。在共享内存并发模型里，同步是显式进行的。程序员必须显式指定某个方法或某段代码须要在线程之间互斥执行。在消息传递的并发模型里，因为消息的发送必须在消息的接收以前，所以同步是隐式进行的。程序员

Java的并发采用的是共享内存模型，Java线程之间的通讯老是隐式进行，整个通讯过程对程序员彻底透明。若是编写多线程程序的Java程序员不理解隐式进行的线程之间通讯的工做机制，极可能会遇到各类奇怪的内存可见性问题。编程

Java内存模型的抽象

在java中，全部实例域、静态域和数组元素存储在堆内存中，堆内存在线程之间共享（本文使用“共享变量”这个术语代指实例域，静态域和数组元素）。局部变量（Local variables），方法定义参数（java语言规范称之为formal method parameters）和异常处理器参数（exception handler parameters）不会在线程之间共享，它们不会有内存可见性问题，也不受内存模型的影响。windows

Java线程之间的通讯由Java内存模型（本文简称为JMM）控制，JMM决定一个线程对共享变量的写入什么时候对另外一个线程可见。从抽象的角度来看，JMM定义了线程和主内存之间的抽象关系：线程之间的共享变量存储在主内存（main memory）中，每一个线程都有一个私有的本地内存（local memory），本地内存中存储了该线程以读/写共享变量的副本。本地内存是JMM的一个抽象概念，并不真实存在。它涵盖了缓存，写缓冲区，寄存器以及其余的硬件和编译器优化。Java内存模型的抽象示意图以下：数组

从上图来看，线程A与线程B之间如要通讯的话，必需要经历下面2个步骤：缓存

首先，线程A把本地内存A中更新过的共享变量刷新到主内存中去。
而后，线程B到主内存中去读取线程A以前已更新过的共享变量。

下面经过示意图来讲明这两个步骤：安全

如上图所示，本地内存A和B有主内存中共享变量x的副本。假设初始时，这三个内存中的x值都为0。线程A在执行时，把更新后的x值（假设值为1）临时存放在本身的本地内存A中。当线程A和线程B须要通讯时，线程A首先会把本身本地内存中修改后的x值刷新到主内存中，此时主内存中的x值变为了1。随后，线程B到主内存中去读取线程A更新后的x值，此时线程B的本地内存的x值也变为了1。session

从总体来看，这两个步骤实质上是线程A在向线程B发送消息，并且这个通讯过程必需要通过主内存。JMM经过控制主内存与每一个线程的本地内存之间的交互，来为java程序员提供内存可见性保证。数据结构

重排序

在执行程序时为了提升性能，编译器和处理器经常会对指令作重排序。重排序分三种类型：

编译器优化的重排序。编译器在不改变单线程程序语义的前提下，能够从新安排语句的执行顺序。
指令级并行的重排序。现代处理器采用了指令级并行技术（Instruction-Level Parallelism， ILP）来将多条指令重叠执行。若是不存在数据依赖性，处理器能够改变语句对应机器指令的执行顺序。
内存系统的重排序。因为处理器使用缓存和读/写缓冲区，这使得加载和存储操做看上去多是在乱序执行。

从java源代码到最终实际执行的指令序列，会分别经历下面三种重排序：

上述的1属于编译器重排序，2和3属于处理器重排序。这些重排序均可能会致使多线程程序出现内存可见性问题。对于编译器，JMM的编译器重排序规则会禁止特定类型的编译器重排序（不是全部的编译器重排序都要禁止）。对于处理器重排序，JMM的处理器重排序规则会要求java编译器在生成指令序列时，插入特定类型的内存屏障（memory barriers，intel称之为memory fence）指令，经过内存屏障指令来禁止特定类型的处理器重排序（不是全部的处理器重排序都要禁止）。

JMM属于语言级的内存模型，它确保在不一样的编译器和不一样的处理器平台之上，经过禁止特定类型的编译器重排序和处理器重排序，为程序员提供一致的内存可见性保证。

处理器重排序与内存屏障指令

现代的处理器使用写缓冲区来临时保存向内存写入的数据。写缓冲区能够保证指令流水线持续运行，它能够避免因为处理器停顿下来等待向内存写入数据而产生的延迟。同时，经过以批处理的方式刷新写缓冲区，以及合并写缓冲区中对同一内存地址的屡次写，能够减小对内存总线的占用。虽然写缓冲区有这么多好处，但每一个处理器上的写缓冲区，仅仅对它所在的处理器可见。这个特性会对内存操做的执行顺序产生重要的影响：处理器对内存的读/写操做的执行顺序，不必定与内存实际发生的读/写操做顺序一致！为了具体说明，请看下面示例：

Processor A	Processor B
a = 1; //A1 x = b; //A2	b = 2; //B1 y = a; //B2
初始状态：a = b = 0 处理器容许执行后获得结果：x = y = 0

假设处理器A和处理器B按程序的顺序并行执行内存访问，最终却可能获得x = y = 0的结果。具体的缘由以下图所示：

这里处理器A和处理器B能够同时把共享变量写入本身的写缓冲区（A1，B1），而后从内存中读取另外一个共享变量（A2，B2），最后才把本身写缓存区中保存的脏数据刷新到内存中（A3，B3）。当以这种时序执行时，程序就能够获得x = y = 0的结果。

从内存操做实际发生的顺序来看，直处处理器A执行A3来刷新本身的写缓存区，写操做A1才算真正执行了。虽然处理器A执行内存操做的顺序为：A1->A2，但内存操做实际发生的顺序倒是：A2->A1。此时，处理器A的内存操做顺序被重排序了（处理器B的状况和处理器A同样，这里就不赘述了）。

这里的关键是，因为写缓冲区仅对本身的处理器可见，它会致使处理器执行内存操做的顺序可能会与内存实际的操做执行顺序不一致。因为现代的处理器都会使用写缓冲区，所以现代的处理器都会容许对写-读操作重排序。

下面是常见处理器容许的重排序类型的列表：

	Load-Load	Load-Store	Store-Store	Store-Load	数据依赖
sparc-TSO	N	N	N	Y	N
x86	N	N	N	Y	N
ia64	Y	Y	Y	Y	N
PowerPC	Y	Y	Y	Y	N

上表单元格中的“N”表示处理器不容许两个操做重排序，“Y”表示容许重排序。

从上表咱们能够看出：常见的处理器都容许Store-Load重排序；常见的处理器都不容许对存在数据依赖的操做作重排序。sparc-TSO和x86拥有相对较强的处理器内存模型，它们仅容许对写-读操做作重排序（由于它们都使用了写缓冲区）。

※注1：sparc-TSO是指以TSO(Total Store Order)内存模型运行时，sparc处理器的特性。

※注2：上表中的x86包括x64及AMD64。

※注3：因为ARM处理器的内存模型与PowerPC处理器的内存模型很是相似，本文将忽略它。

※注4：数据依赖性后文会专门说明。

为了保证内存可见性，java编译器在生成指令序列的适当位置会插入内存屏障指令来禁止特定类型的处理器重排序。JMM把内存屏障指令分为下列四类：

屏障类型	指令示例	说明
LoadLoad Barriers	Load1; LoadLoad; Load2	确保Load1数据的装载，以前于Load2及全部后续装载指令的装载。
StoreStore Barriers	Store1; StoreStore; Store2	确保Store1数据对其余处理器可见（刷新到内存），以前于Store2及全部后续存储指令的存储。
LoadStore Barriers	Load1; LoadStore; Store2	确保Load1数据装载，以前于Store2及全部后续的存储指令刷新到内存。
StoreLoad Barriers	Store1; StoreLoad; Load2	确保Store1数据对其余处理器变得可见（指刷新到内存），以前于Load2及全部后续装载指令的装载。StoreLoad Barriers会使该屏障以前的全部内存访问指令（存储和装载指令）完成以后，才执行该屏障以后的内存访问指令。

StoreLoad Barriers是一个“全能型”的屏障，它同时具备其余三个屏障的效果。现代的多处理器大都支持该屏障（其余类型的屏障不必定被全部处理器支持）。执行该屏障开销会很昂贵，由于当前处理器一般要把写缓冲区中的数据所有刷新到内存中（buffer fully flush）。

happens-before

从JDK5开始，java使用新的JSR -133内存模型（本文除非特别说明，针对的都是JSR- 133内存模型）。JSR-133提出了happens-before的概念，经过这个概念来阐述操做之间的内存可见性。若是一个操做执行的结果须要对另外一个操做可见，那么这两个操做之间必须存在happens-before关系。这里提到的两个操做既能够是在一个线程以内，也能够是在不一样线程之间。与程序员密切相关的happens-before规则以下：

程序顺序规则：一个线程中的每一个操做，happens- before 于该线程中的任意后续操做。
监视器锁规则：对一个监视器锁的解锁，happens- before 于随后对这个监视器锁的加锁。
volatile变量规则：对一个volatile域的写，happens- before 于任意后续对这个volatile域的读。
传递性：若是A happens- before B，且B happens- before C，那么A happens- before C。

注意，两个操做之间具备happens-before关系，并不意味着前一个操做必需要在后一个操做以前执行！happens-before仅仅要求前一个操做（执行的结果）对后一个操做可见，且前一个操做按顺序排在第二个操做以前（the first is visible to and ordered before the second）。happens- before的定义很微妙，后文会具体说明happens-before为何要这么定义。

happens-before与JMM的关系以下图所示：

如上图所示，一个happens-before规则一般对应于多个编译器重排序规则和处理器重排序规则。对于java程序员来讲，happens-before规则简单易懂，它避免程序员为了理解JMM提供的内存可见性保证而去学习复杂的重排序规则以及这些规则的具体实现。

深刻理解Java内存模型（二）——重排序

数据依赖性

若是两个操做访问同一个变量，且这两个操做中有一个为写操做，此时这两个操做之间就存在数据依赖性。数据依赖分下列三种类型：

名称	代码示例	说明
写后读	a = 1;b = a;	写一个变量以后，再读这个位置。
写后写	a = 1;a = 2;	写一个变量以后，再写这个变量。
读后写	a = b;b = 1;	读一个变量以后，再写这个变量。

上面三种状况，只要重排序两个操做的执行顺序，程序的执行结果将会被改变。

前面提到过，编译器和处理器可能会对操做作重排序。编译器和处理器在重排序时，会遵照数据依赖性，编译器和处理器不会改变存在数据依赖关系的两个操做的执行顺序。

注意，这里所说的数据依赖性仅针对单个处理器中执行的指令序列和单个线程中执行的操做，不一样处理器之间和不一样线程之间的数据依赖性不被编译器和处理器考虑。

as-if-serial语义

as-if-serial语义的意思指：无论怎么重排序（编译器和处理器为了提升并行度），（单线程）程序的执行结果不能被改变。编译器，runtime 和处理器都必须遵照as-if-serial语义。

为了遵照as-if-serial语义，编译器和处理器不会对存在数据依赖关系的操做作重排序，由于这种重排序会改变执行结果。可是，若是操做之间不存在数据依赖关系，这些操做可能被编译器和处理器重排序。为了具体说明，请看下面计算圆面积的代码示例：

double pi  = 3.14;    //A
double r   = 1.0;     //B
double area = pi * r * r; //C

上面三个操做的数据依赖关系以下图所示：

如上图所示，A和C之间存在数据依赖关系，同时B和C之间也存在数据依赖关系。所以在最终执行的指令序列中，C不能被重排序到A和B的前面（C排到A和B的前面，程序的结果将会被改变）。但A和B之间没有数据依赖关系，编译器和处理器能够重排序A和B之间的执行顺序。下图是该程序的两种执行顺序：

as-if-serial语义把单线程程序保护了起来，遵照as-if-serial语义的编译器，runtime 和处理器共同为编写单线程程序的程序员建立了一个幻觉：单线程程序是按程序的顺序来执行的。as-if-serial语义使单线程程序员无需担忧重排序会干扰他们，也无需担忧内存可见性问题。

程序顺序规则

根据happens- before的程序顺序规则，上面计算圆的面积的示例代码存在三个happens- before关系：

A happens- before B；
B happens- before C；
A happens- before C；

这里的第3个happens- before关系，是根据happens- before的传递性推导出来的。

这里A happens- before B，但实际执行时B却能够排在A以前执行（看上面的重排序后的执行顺序）。在第一章提到过，若是A happens- before B，JMM并不要求A必定要在B以前执行。JMM仅仅要求前一个操做（执行的结果）对后一个操做可见，且前一个操做按顺序排在第二个操做以前。这里操做A的执行结果不须要对操做B可见；并且重排序操做A和操做B后的执行结果，与操做A和操做B按happens- before顺序执行的结果一致。在这种状况下，JMM会认为这种重排序并不非法（not illegal），JMM容许这种重排序。

在计算机中，软件技术和硬件技术有一个共同的目标：在不改变程序执行结果的前提下，尽量的开发并行度。编译器和处理器听从这一目标，从happens- before的定义咱们能够看出，JMM一样听从这一目标。

重排序对多线程的影响

如今让咱们来看看，重排序是否会改变多线程程序的执行结果。请看下面的示例代码：

class ReorderExample {
int a = 0;
boolean flag = false;

public void writer() {
    a = 1;                   //1
    flag = true;             //2
}

Public void reader() {
    if (flag) {                //3
        int i =  a * a;        //4
        ……
    }
}
}

flag变量是个标记，用来标识变量a是否已被写入。这里假设有两个线程A和B，A首先执行writer()方法，随后B线程接着执行reader()方法。线程B在执行操做4时，可否看到线程A在操做1对共享变量a的写入？

答案是：不必定能看到。

因为操做1和操做2没有数据依赖关系，编译器和处理器能够对这两个操做重排序；一样，操做3和操做4没有数据依赖关系，编译器和处理器也能够对这两个操做重排序。让咱们先来看看，当操做1和操做2重排序时，可能会产生什么效果？请看下面的程序执行时序图：

如上图所示，操做1和操做2作了重排序。程序执行时，线程A首先写标记变量flag，随后线程B读这个变量。因为条件判断为真，线程B将读取变量a。此时，变量a还根本没有被线程A写入，在这里多线程程序的语义被重排序破坏了！

※注：本文统一用红色的虚箭线表示错误的读操做，用绿色的虚箭线表示正确的读操做。

下面再让咱们看看，当操做3和操做4重排序时会产生什么效果（借助这个重排序，能够顺便说明控制依赖性）。下面是操做3和操做4重排序后，程序的执行时序图：

在程序中，操做3和操做4存在控制依赖关系。当代码中存在控制依赖性时，会影响指令序列执行的并行度。为此，编译器和处理器会采用猜想（Speculation）执行来克服控制相关性对并行度的影响。以处理器的猜想执行为例，执行线程B的处理器能够提早读取并计算a*a，而后把计算结果临时保存到一个名为重排序缓冲（reorder buffer ROB）的硬件缓存中。当接下来操做3的条件判断为真时，就把该计算结果写入变量i中。

从图中咱们能够看出，猜想执行实质上对操做3和4作了重排序。重排序在这里破坏了多线程程序的语义！

在单线程程序中，对存在控制依赖的操做重排序，不会改变执行结果（这也是as-if-serial语义容许对存在控制依赖的操做作重排序的缘由）；但在多线程程序中，对存在控制依赖的操做重排序，可能会改变程序的执行结果。

深刻理解Java内存模型（三）——顺序一致性

数据竞争与顺序一致性保证

当程序未正确同步时，就会存在数据竞争。java内存模型规范对数据竞争的定义以下：

在一个线程中写一个变量，
在另外一个线程读同一个变量，
并且写和读没有经过同步来排序。

当代码中包含数据竞争时，程序的执行每每产生违反直觉的结果（前一章的示例正是如此）。若是一个多线程程序能正确同步，这个程序将是一个没有数据竞争的程序。

JMM对正确同步的多线程程序的内存一致性作了以下保证：

若是程序是正确同步的，程序的执行将具备顺序一致性（sequentially consistent）--即程序的执行结果与该程序在顺序一致性内存模型中的执行结果相同（立刻咱们将会看到，这对于程序员来讲是一个极强的保证）。这里的同步是指广义上的同步，包括对经常使用同步原语（lock，volatile和final）的正确使用。

顺序一致性内存模型

顺序一致性内存模型是一个被计算机科学家理想化了的理论参考模型，它为程序员提供了极强的内存可见性保证。顺序一致性内存模型有两大特性：

一个线程中的全部操做必须按照程序的顺序来执行。
（无论程序是否同步）全部线程都只能看到一个单一的操做执行顺序。在顺序一致性内存模型中，每一个操做都必须原子执行且马上对全部线程可见。

顺序一致性内存模型为程序员提供的视图以下：

在概念上，顺序一致性模型有一个单一的全局内存，这个内存经过一个左右摆动的开关能够链接到任意一个线程。同时，每个线程必须按程序的顺序来执行内存读/写操做。从上图咱们能够看出，在任意时间点最多只能有一个线程能够链接到内存。当多个线程并发执行时，图中的开关装置能把全部线程的全部内存读/写操做串行化。

为了更好的理解，下面咱们经过两个示意图来对顺序一致性模型的特性作进一步的说明。

假设有两个线程A和B并发执行。其中A线程有三个操做，它们在程序中的顺序是：A1->A2->A3。B线程也有三个操做，它们在程序中的顺序是：B1->B2->B3。

假设这两个线程使用监视器来正确同步：A线程的三个操做执行后释放监视器，随后B线程获取同一个监视器。那么程序在顺序一致性模型中的执行效果将以下图所示：

如今咱们再假设这两个线程没有作同步，下面是这个未同步程序在顺序一致性模型中的执行示意图：

未同步程序在顺序一致性模型中虽然总体执行顺序是无序的，但全部线程都只能看到一个一致的总体执行顺序。以上图为例，线程A和B看到的执行顺序都是：B1->A1->A2->B2->A3->B3。之因此能获得这个保证是由于顺序一致性内存模型中的每一个操做必须当即对任意线程可见。

可是，在JMM中就没有这个保证。未同步程序在JMM中不但总体的执行顺序是无序的，并且全部线程看到的操做执行顺序也可能不一致。好比，在当前线程把写过的数据缓存在本地内存中，且尚未刷新到主内存以前，这个写操做仅对当前线程可见；从其余线程的角度来观察，会认为这个写操做根本尚未被当前线程执行。只有当前线程把本地内存中写过的数据刷新到主内存以后，这个写操做才能对其余线程可见。在这种状况下，当前线程和其它线程看到的操做执行顺序将不一致。

同步程序的顺序一致性效果

下面咱们对前面的示例程序ReorderExample用监视器来同步，看看正确同步的程序如何具备顺序一致性。

请看下面的示例代码：

class SynchronizedExample {
int a = 0;
boolean flag = false;

public synchronized void writer() {
    a = 1;
    flag = true;
}

public synchronized void reader() {
    if (flag) {
        int i = a;
        ……
    }
}
}

上面示例代码中，假设A线程执行writer()方法后，B线程执行reader()方法。这是一个正确同步的多线程程序。根据JMM规范，该程序的执行结果将与该程序在顺序一致性模型中的执行结果相同。下面是该程序在两个内存模型中的执行时序对比图：

在顺序一致性模型中，全部操做彻底按程序的顺序串行执行。而在JMM中，临界区内的代码能够重排序（但JMM不容许临界区内的代码“逸出”到临界区以外，那样会破坏监视器的语义）。JMM会在退出监视器和进入监视器这两个关键时间点作一些特别处理，使得线程在这两个时间点具备与顺序一致性模型相同的内存视图（具体细节后文会说明）。虽然线程A在临界区内作了重排序，但因为监视器的互斥执行的特性，这里的线程B根本没法“观察”到线程A在临界区内的重排序。这种重排序既提升了执行效率，又没有改变程序的执行结果。

从这里咱们能够看到JMM在具体实现上的基本方针：在不改变（正确同步的）程序执行结果的前提下，尽量的为编译器和处理器的优化打开方便之门。

未同步程序的执行特性

对于未同步或未正确同步的多线程程序，JMM只提供最小安全性：线程执行时读取到的值，要么是以前某个线程写入的值，要么是默认值（0，null，false），JMM保证线程读操做读取到的值不会无中生有（out of thin air）的冒出来。为了实现最小安全性，JVM在堆上分配对象时，首先会清零内存空间，而后才会在上面分配对象（JVM内部会同步这两个操做）。所以，在以清零的内存空间（pre-zeroed memory）分配对象时，域的默认初始化已经完成了。

JMM不保证未同步程序的执行结果与该程序在顺序一致性模型中的执行结果一致。由于未同步程序在顺序一致性模型中执行时，总体上是无序的，其执行结果没法预知。保证未同步程序在两个模型中的执行结果一致毫无心义。

和顺序一致性模型同样，未同步程序在JMM中的执行时，总体上也是无序的，其执行结果也没法预知。同时，未同步程序在这两个模型中的执行特性有下面几个差别：

顺序一致性模型保证单线程内的操做会按程序的顺序执行，而JMM不保证单线程内的操做会按程序的顺序执行（好比上面正确同步的多线程程序在临界区内的重排序）。这一点前面已经讲过了，这里就再也不赘述。
顺序一致性模型保证全部线程只能看到一致的操做执行顺序，而JMM不保证全部线程能看到一致的操做执行顺序。这一点前面也已经讲过，这里就再也不赘述。
JMM不保证对64位的long型和double型变量的读/写操做具备原子性，而顺序一致性模型保证对全部的内存读/写操做都具备原子性。

第3个差别与处理器总线的工做机制密切相关。在计算机中，数据经过总线在处理器和内存之间传递。每次处理器和内存之间的数据传递都是经过一系列步骤来完成的，这一系列步骤称之为总线事务（bus transaction）。总线事务包括读事务（read transaction）和写事务（write transaction）。读事务从内存传送数据处处理器，写事务从处理器传送数据到内存，每一个事务会读/写内存中一个或多个物理上连续的字。这里的关键是，总线会同步试图并发使用总线的事务。在一个处理器执行总线事务期间，总线会禁止其它全部的处理器和I/O设备执行内存的读/写。下面让咱们经过一个示意图来讲明总线的工做机制：

如上图所示，假设处理器A，B和C同时向总线发起总线事务，这时总线仲裁（bus arbitration）会对竞争做出裁决，这里咱们假设总线在仲裁后断定处理器A在竞争中获胜（总线仲裁会确保全部处理器都能公平的访问内存）。此时处理器A继续它的总线事务，而其它两个处理器则要等待处理器A的总线事务完成后才能开始再次执行内存访问。假设在处理器A执行总线事务期间（无论这个总线事务是读事务仍是写事务），处理器D向总线发起了总线事务，此时处理器D的这个请求会被总线禁止。

总线的这些工做机制能够把全部处理器对内存的访问以串行化的方式来执行；在任意时间点，最多只能有一个处理器能访问内存。这个特性确保了单个总线事务之中的内存读/写操做具备原子性。

在一些32位的处理器上，若是要求对64位数据的读/写操做具备原子性，会有比较大的开销。为了照顾这种处理器，java语言规范鼓励但不强求JVM对64位的long型变量和double型变量的读/写具备原子性。当JVM在这种处理器上运行时，会把一个64位long/ double型变量的读/写操做拆分为两个32位的读/写操做来执行。这两个32位的读/写操做可能会被分配到不一样的总线事务中执行，此时对这个64位变量的读/写将不具备原子性。

当单个内存操做不具备原子性，将可能会产生意想不到后果。请看下面示意图：

如上图所示，假设处理器A写一个long型变量，同时处理器B要读这个long型变量。处理器A中64位的写操做被拆分为两个32位的写操做，且这两个32位的写操做被分配到不一样的写事务中执行。同时处理器B中64位的读操做被拆分为两个32位的读操做，且这两个32位的读操做被分配到同一个的读事务中执行。当处理器A和B按上图的时序来执行时，处理器B将看到仅仅被处理器A“写了一半“的无效值。

深刻理解Java内存模型（四）——volatile

volatile的特性

当咱们声明共享变量为volatile后，对这个变量的读/写将会很特别。理解volatile特性的一个好方法是：把对volatile变量的单个读/写，当作是使用同一个监视器锁对这些单个读/写操做作了同步。下面咱们经过具体的示例来讲明，请看下面的示例代码：

class VolatileFeaturesExample {
    volatile long vl = 0L;  //使用volatile声明64位的long型变量

    public void set(long l) {
        vl = l;   //单个volatile变量的写
    }

    public void getAndIncrement () {
        vl++;    //复合（多个）volatile变量的读/写
    }


    public long get() {
        return vl;   //单个volatile变量的读
    }
}

假设有多个线程分别调用上面程序的三个方法，这个程序在语意上和下面程序等价：

class VolatileFeaturesExample {
    long vl = 0L;               // 64位的long型普通变量

    public synchronized void set(long l) {     //对单个的普通 变量的写用同一个监视器同步
        vl = l;
    }

    public void getAndIncrement () { //普通方法调用
        long temp = get();           //调用已同步的读方法
        temp += 1L;                  //普通写操做
        set(temp);                   //调用已同步的写方法
    }
    public synchronized long get() { 
    //对单个的普通变量的读用同一个监视器同步
        return vl;
    }
}

如上面示例程序所示，对一个volatile变量的单个读/写操做，与对一个普通变量的读/写操做使用同一个监视器锁来同步，它们之间的执行效果相同。

监视器锁的happens-before规则保证释放监视器和获取监视器的两个线程之间的内存可见性，这意味着对一个volatile变量的读，老是能看到（任意线程）对这个volatile变量最后的写入。

监视器锁的语义决定了临界区代码的执行具备原子性。这意味着即便是64位的long型和double型变量，只要它是volatile变量，对该变量的读写就将具备原子性。若是是多个volatile操做或相似于volatile++这种复合操做，这些操做总体上不具备原子性。

简而言之，volatile变量自身具备下列特性：

可见性。对一个volatile变量的读，老是能看到（任意线程）对这个volatile变量最后的写入。
原子性：对任意单个volatile变量的读/写具备原子性，但相似于volatile++这种复合操做不具备原子性。

volatile写-读创建的happens before关系

上面讲的是volatile变量自身的特性，对程序员来讲，volatile对线程的内存可见性的影响比volatile自身的特性更为重要，也更须要咱们去关注。

从JSR-133开始，volatile变量的写-读能够实现线程之间的通讯。

从内存语义的角度来讲，volatile与监视器锁有相同的效果：volatile写和监视器的释放有相同的内存语义；volatile读与监视器的获取有相同的内存语义。

请看下面使用volatile变量的示例代码：

class VolatileExample {
    int a = 0;
    volatile boolean flag = false;

    public void writer() {
        a = 1;                   //1
        flag = true;               //2
    }

    public void reader() {
        if (flag) {                //3
            int i =  a;           //4
            ……
        }
    }
}

假设线程A执行writer()方法以后，线程B执行reader()方法。根据happens before规则，这个过程创建的happens before 关系能够分为两类：

根据程序次序规则，1 happens before 2; 3 happens before 4。
根据volatile规则，2 happens before 3。
根据happens before 的传递性规则，1 happens before 4。

上述happens before 关系的图形化表现形式以下：

在上图中，每个箭头连接的两个节点，表明了一个happens before 关系。黑色箭头表示程序顺序规则；橙色箭头表示volatile规则；蓝色箭头表示组合这些规则后提供的happens before保证。

这里A线程写一个volatile变量后，B线程读同一个volatile变量。A线程在写volatile变量以前全部可见的共享变量，在B线程读同一个volatile变量后，将当即变得对B线程可见。

volatile写-读的内存语义

volatile写的内存语义以下：

当写一个volatile变量时，JMM会把该线程对应的本地内存中的共享变量刷新到主内存。

以上面示例程序VolatileExample为例，假设线程A首先执行writer()方法，随后线程B执行reader()方法，初始时两个线程的本地内存中的flag和a都是初始状态。下图是线程A执行volatile写后，共享变量的状态示意图：

如上图所示，线程A在写flag变量后，本地内存A中被线程A更新过的两个共享变量的值被刷新到主内存中。此时，本地内存A和主内存中的共享变量的值是一致的。

volatile读的内存语义以下：

当读一个volatile变量时，JMM会把该线程对应的本地内存置为无效。线程接下来将从主内存中读取共享变量。

下面是线程B读同一个volatile变量后，共享变量的状态示意图：

如上图所示，在读flag变量后，本地内存B已经被置为无效。此时，线程B必须从主内存中读取共享变量。线程B的读取操做将致使本地内存B与主内存中的共享变量的值也变成一致的了。

若是咱们把volatile写和volatile读这两个步骤综合起来看的话，在读线程B读一个volatile变量后，写线程A在写这个volatile变量以前全部可见的共享变量的值都将当即变得对读线程B可见。

下面对volatile写和volatile读的内存语义作个总结：

线程A写一个volatile变量，实质上是线程A向接下来将要读这个volatile变量的某个线程发出了（其对共享变量所在修改的）消息。
线程B读一个volatile变量，实质上是线程B接收了以前某个线程发出的（在写这个volatile变量以前对共享变量所作修改的）消息。
线程A写一个volatile变量，随后线程B读这个volatile变量，这个过程实质上是线程A经过主内存向线程B发送消息。

volatile内存语义的实现

下面，让咱们来看看JMM如何实现volatile写/读的内存语义。

前文咱们提到太重排序分为编译器重排序和处理器重排序。为了实现volatile内存语义，JMM会分别限制这两种类型的重排序类型。下面是JMM针对编译器制定的volatile重排序规则表：

是否能重排序	第二个操做
第一个操做	普通读/写	volatile读	volatile写
普通读/写			NO
volatile读	NO	NO	NO
volatile写		NO	NO

举例来讲，第三行最后一个单元格的意思是：在程序顺序中，当第一个操做为普通变量的读或写时，若是第二个操做为volatile写，则编译器不能重排序这两个操做。

从上表咱们能够看出：

当第二个操做是volatile写时，无论第一个操做是什么，都不能重排序。这个规则确保volatile写以前的操做不会被编译器重排序到volatile写以后。
当第一个操做是volatile读时，无论第二个操做是什么，都不能重排序。这个规则确保volatile读以后的操做不会被编译器重排序到volatile读以前。
当第一个操做是volatile写，第二个操做是volatile读时，不能重排序。

为了实现volatile的内存语义，编译器在生成字节码时，会在指令序列中插入内存屏障来禁止特定类型的处理器重排序。对于编译器来讲，发现一个最优布置来最小化插入屏障的总数几乎不可能，为此，JMM采起保守策略。下面是基于保守策略的JMM内存屏障插入策略：

在每一个volatile写操做的前面插入一个StoreStore屏障。
在每一个volatile写操做的后面插入一个StoreLoad屏障。
在每一个volatile读操做的后面插入一个LoadLoad屏障。
在每一个volatile读操做的后面插入一个LoadStore屏障。

上述内存屏障插入策略很是保守，但它能够保证在任意处理器平台，任意的程序中都能获得正确的volatile内存语义。

下面是保守策略下，volatile写插入内存屏障后生成的指令序列示意图：

上图中的StoreStore屏障能够保证在volatile写以前，其前面的全部普通写操做已经对任意处理器可见了。这是由于StoreStore屏障将保障上面全部的普通写在volatile写以前刷新到主内存。

这里比较有意思的是volatile写后面的StoreLoad屏障。这个屏障的做用是避免volatile写与后面可能有的volatile读/写操做重排序。由于编译器经常没法准确判断在一个volatile写的后面，是否须要插入一个StoreLoad屏障（好比，一个volatile写以后方法当即return）。为了保证能正确实现volatile的内存语义，JMM在这里采起了保守策略：在每一个volatile写的后面或在每一个volatile读的前面插入一个StoreLoad屏障。从总体执行效率的角度考虑，JMM选择了在每一个volatile写的后面插入一个StoreLoad屏障。由于volatile写-读内存语义的常见使用模式是：一个写线程写volatile变量，多个读线程读同一个volatile变量。当读线程的数量大大超过写线程时，选择在volatile写以后插入StoreLoad屏障将带来可观的执行效率的提高。从这里咱们能够看到JMM在实现上的一个特色：首先确保正确性，而后再去追求执行效率。

下面是在保守策略下，volatile读插入内存屏障后生成的指令序列示意图：

上图中的LoadLoad屏障用来禁止处理器把上面的volatile读与下面的普通读重排序。LoadStore屏障用来禁止处理器把上面的volatile读与下面的普通写重排序。

上述volatile写和volatile读的内存屏障插入策略很是保守。在实际执行时，只要不改变volatile写-读的内存语义，编译器能够根据具体状况省略没必要要的屏障。下面咱们经过具体的示例代码来讲明：

class VolatileBarrierExample {
    int a;
    volatile int v1 = 1;
    volatile int v2 = 2;

    void readAndWrite() {
        int i = v1;           //第一个volatile读
        int j = v2;           // 第二个volatile读
        a = i + j;            //普通写
        v1 = i + 1;          // 第一个volatile写
        v2 = j * 2;          //第二个 volatile写
    }

    …                    //其余方法
}

针对readAndWrite()方法，编译器在生成字节码时能够作以下的优化：

注意，最后的StoreLoad屏障不能省略。由于第二个volatile写以后，方法当即return。此时编译器可能没法准确判定后面是否会有volatile读或写，为了安全起见，编译器经常会在这里插入一个StoreLoad屏障。

上面的优化是针对任意处理器平台，因为不一样的处理器有不一样“松紧度”的处理器内存模型，内存屏障的插入还能够根据具体的处理器内存模型继续优化。以x86处理器为例，上图中除最后的StoreLoad屏障外，其它的屏障都会被省略。

前面保守策略下的volatile读和写，在 x86处理器平台能够优化成：

前文提到过，x86处理器仅会对写-读操做作重排序。X86不会对读-读，读-写和写-写操做作重排序，所以在x86处理器中会省略掉这三种操做类型对应的内存屏障。在x86中，JMM仅需在volatile写后面插入一个StoreLoad屏障便可正确实现volatile写-读的内存语义。这意味着在x86处理器中，volatile写的开销比volatile读的开销会大不少（由于执行StoreLoad屏障开销会比较大）。

JSR-133为何要加强volatile的内存语义

在JSR-133以前的旧Java内存模型中，虽然不容许volatile变量之间重排序，但旧的Java内存模型容许volatile变量与普通变量之间重排序。在旧的内存模型中，VolatileExample示例程序可能被重排序成下列时序来执行：

在旧的内存模型中，当1和2之间没有数据依赖关系时，1和2之间就可能被重排序（3和4相似）。其结果就是：读线程B执行4时，不必定能看到写线程A在执行1时对共享变量的修改。

所以在旧的内存模型中，volatile的写-读没有监视器的释放-获所具备的内存语义。为了提供一种比监视器锁更轻量级的线程之间通讯的机制，JSR-133专家组决定加强volatile的内存语义：严格限制编译器和处理器对volatile变量与普通变量的重排序，确保volatile的写-读和监视器的释放-获取同样，具备相同的内存语义。从编译器重排序规则和处理器内存屏障插入策略来看，只要volatile变量与普通变量之间的重排序可能会破坏volatile的内存语意，这种重排序就会被编译器重排序规则和处理器内存屏障插入策略禁止。

因为volatile仅仅保证对单个volatile变量的读/写具备原子性，而监视器锁的互斥执行的特性能够确保对整个临界区代码的执行具备原子性。在功能上，监视器锁比volatile更强大；在可伸缩性和执行性能上，volatile更有优点。若是读者想在程序中用volatile代替监视器锁，请必定谨慎。

深刻理解Java内存模型（五）——锁

锁的释放-获取创建的happens before 关系

锁是java并发编程中最重要的同步机制。锁除了让临界区互斥执行外，还可让释放锁的线程向获取同一个锁的线程发送消息。

下面是锁释放-获取的示例代码：

class MonitorExample {
    int a = 0;

    public synchronized void writer() {  //1
        a++;                             //2
    }                                    //3

    public synchronized void reader() {  //4
        int i = a;                       //5
        ……
    }                                    //6
}

假设线程A执行writer()方法，随后线程B执行reader()方法。根据happens before规则，这个过程包含的happens before 关系能够分为两类：

根据程序次序规则，1 happens before 2, 2 happens before 3; 4 happens before 5, 5 happens before 6。
根据监视器锁规则，3 happens before 4。
根据happens before 的传递性，2 happens before 5。

上述happens before 关系的图形化表现形式以下：

在上图中，每个箭头连接的两个节点，表明了一个happens before 关系。黑色箭头表示程序顺序规则；橙色箭头表示监视器锁规则；蓝色箭头表示组合这些规则后提供的happens before保证。

上图表示在线程A释放了锁以后，随后线程B获取同一个锁。在上图中，2 happens before 5。所以，线程A在释放锁以前全部可见的共享变量，在线程B获取同一个锁以后，将马上变得对B线程可见。

锁释放和获取的内存语义

当线程释放锁时，JMM会把该线程对应的本地内存中的共享变量刷新到主内存中。以上面的MonitorExample程序为例，A线程释放锁后，共享数据的状态示意图以下：

当线程获取锁时，JMM会把该线程对应的本地内存置为无效。从而使得被监视器保护的临界区代码必需要从主内存中去读取共享变量。下面是锁获取的状态示意图：

对比锁释放-获取的内存语义与volatile写-读的内存语义，能够看出：锁释放与volatile写有相同的内存语义；锁获取与volatile读有相同的内存语义。

下面对锁释放和锁获取的内存语义作个总结：

线程A释放一个锁，实质上是线程A向接下来将要获取这个锁的某个线程发出了（线程A对共享变量所作修改的）消息。
线程B获取一个锁，实质上是线程B接收了以前某个线程发出的（在释放这个锁以前对共享变量所作修改的）消息。
线程A释放锁，随后线程B获取这个锁，这个过程实质上是线程A经过主内存向线程B发送消息。

锁内存语义的实现

本文将借助ReentrantLock的源代码，来分析锁内存语义的具体实现机制。

请看下面的示例代码：

class ReentrantLockExample {
int a = 0;
ReentrantLock lock = new ReentrantLock();

public void writer() {
    lock.lock();         //获取锁
    try {
        a++;
    } finally {
        lock.unlock();  //释放锁
    }
}

public void reader () {
    lock.lock();        //获取锁
    try {
        int i = a;
        ……
    } finally {
        lock.unlock();  //释放锁
    }
}
}

在ReentrantLock中，调用lock()方法获取锁；调用unlock()方法释放锁。

ReentrantLock的实现依赖于java同步器框架AbstractQueuedSynchronizer（本文简称之为AQS）。AQS使用一个整型的volatile变量（命名为state）来维护同步状态，立刻咱们会看到，这个volatile变量是ReentrantLock内存语义实现的关键。下面是ReentrantLock的类图（仅画出与本文相关的部分）：

ReentrantLock分为公平锁和非公平锁，咱们首先分析公平锁。

使用公平锁时，加锁方法lock()的方法调用轨迹以下：

ReentrantLock : lock()
FairSync : lock()
AbstractQueuedSynchronizer : acquire(int arg)
ReentrantLock : tryAcquire(int acquires)

在第4步真正开始加锁，下面是该方法的源代码：

protected final boolean tryAcquire(int acquires) {
    final Thread current = Thread.currentThread();
    int c = getState();   //获取锁的开始，首先读volatile变量state
    if (c == 0) {
        if (isFirst(current) &&
            compareAndSetState(0, acquires)) {
            setExclusiveOwnerThread(current);
            return true;
        }
    }
    else if (current == getExclusiveOwnerThread()) {
        int nextc = c + acquires;
        if (nextc < 0)  
            throw new Error("Maximum lock count exceeded");
        setState(nextc);
        return true;
    }
    return false;
}

从上面源代码中咱们能够看出，加锁方法首先读volatile变量state。

在使用公平锁时，解锁方法unlock()的方法调用轨迹以下：

ReentrantLock : unlock()
AbstractQueuedSynchronizer : release(int arg)
Sync : tryRelease(int releases)

在第3步真正开始释放锁，下面是该方法的源代码：

protected final boolean tryRelease(int releases) {
    int c = getState() - releases;
    if (Thread.currentThread() != getExclusiveOwnerThread())
        throw new IllegalMonitorStateException();
    boolean free = false;
    if (c == 0) {
        free = true;
        setExclusiveOwnerThread(null);
    }
    setState(c);           //释放锁的最后，写volatile变量state
    return free;
}

从上面的源代码咱们能够看出，在释放锁的最后写volatile变量state。

公平锁在释放锁的最后写volatile变量state；在获取锁时首先读这个volatile变量。根据volatile的happens-before规则，释放锁的线程在写volatile变量以前可见的共享变量，在获取锁的线程读取同一个volatile变量后将当即变的对获取锁的线程可见。

如今咱们分析非公平锁的内存语义的实现。

非公平锁的释放和公平锁彻底同样，因此这里仅仅分析非公平锁的获取。

使用公平锁时，加锁方法lock()的方法调用轨迹以下：

ReentrantLock : lock()
NonfairSync : lock()
AbstractQueuedSynchronizer : compareAndSetState(int expect, int update)

在第3步真正开始加锁，下面是该方法的源代码：

protected final boolean compareAndSetState(int expect, int update) {
    return unsafe.compareAndSwapInt(this, stateOffset, expect, update);
}

该方法以原子操做的方式更新state变量，本文把java的compareAndSet()方法调用简称为CAS。JDK文档对该方法的说明以下：若是当前状态值等于预期值，则以原子方式将同步状态设置为给定的更新值。此操做具备 volatile 读和写的内存语义。

这里咱们分别从编译器和处理器的角度来分析,CAS如何同时具备volatile读和volatile写的内存语义。

前文咱们提到过，编译器不会对volatile读与volatile读后面的任意内存操做重排序；编译器不会对volatile写与volatile写前面的任意内存操做重排序。组合这两个条件，意味着为了同时实现volatile读和volatile写的内存语义，编译器不能对CAS与CAS前面和后面的任意内存操做重排序。

下面咱们来分析在常见的intel x86处理器中，CAS是如何同时具备volatile读和volatile写的内存语义的。

下面是sun.misc.Unsafe类的compareAndSwapInt()方法的源代码：

public final native boolean compareAndSwapInt(Object o, long offset,
                                              int expected,
                                              int x);

能够看到这是个本地方法调用。这个本地方法在openjdk中依次调用的c++代码为：unsafe.cpp，atomic.cpp和atomicwindowsx86.inline.hpp。这个本地方法的最终实如今openjdk的以下位置：openjdk-7-fcs-src-b147-27jun2011\openjdk\hotspot\src\oscpu\windowsx86\vm\ atomicwindowsx86.inline.hpp（对应于windows操做系统，X86处理器）。下面是对应于intel x86处理器的源代码的片断：

// Adding a lock prefix to an instruction on MP machine
// VC++ doesn't like the lock prefix to be on a single line
// so we can't insert a label after the lock prefix.
// By emitting a lock prefix, we can define a label after it.
#define LOCK_IF_MP(mp) __asm cmp mp, 0  \
                       __asm je L0      \
                       __asm _emit 0xF0 \
                       __asm L0:

inline jint     Atomic::cmpxchg    (jint     exchange_value, volatile jint*     dest, jint     compare_value) {
  // alternative for InterlockedCompareExchange
  int mp = os::is_MP();
  __asm {
    mov edx, dest
    mov ecx, exchange_value
    mov eax, compare_value
    LOCK_IF_MP(mp)
    cmpxchg dword ptr [edx], ecx
  }
}

如上面源代码所示，程序会根据当前处理器的类型来决定是否为cmpxchg指令添加lock前缀。若是程序是在多处理器上运行，就为cmpxchg指令加上lock前缀（lock cmpxchg）。反之，若是程序是在单处理器上运行，就省略lock前缀（单处理器自身会维护单处理器内的顺序一致性，不须要lock前缀提供的内存屏障效果）。

intel的手册对lock前缀的说明以下：

确保对内存的读-改-写操做原子执行。在Pentium及Pentium以前的处理器中，带有lock前缀的指令在执行期间会锁住总线，使得其余处理器暂时没法经过总线访问内存。很显然，这会带来昂贵的开销。从Pentium 4，Intel Xeon及P6处理器开始，intel在原有总线锁的基础上作了一个颇有意义的优化：若是要访问的内存区域（area of memory）在lock前缀指令执行期间已经在处理器内部的缓存中被锁定（即包含该内存区域的缓存行当前处于独占或以修改状态），而且该内存区域被彻底包含在单个缓存行（cache line）中，那么处理器将直接执行该指令。因为在指令执行期间该缓存行会一直被锁定，其它处理器没法读/写该指令要访问的内存区域，所以能保证指令执行的原子性。这个操做过程叫作缓存锁定（cache locking），缓存锁定将大大下降lock前缀指令的执行开销，可是当多处理器之间的竞争程度很高或者指令访问的内存地址未对齐时，仍然会锁住总线。
禁止该指令与以前和以后的读和写指令重排序。
把写缓冲区中的全部数据刷新到内存中。

上面的第2点和第3点所具备的内存屏障效果，足以同时实现volatile读和volatile写的内存语义。

通过上面的这些分析，如今咱们终于能明白为何JDK文档说CAS同时具备volatile读和volatile写的内存语义了。

如今对公平锁和非公平锁的内存语义作个总结：

公平锁和非公平锁释放时，最后都要写一个volatile变量state。
公平锁获取时，首先会去读这个volatile变量。
非公平锁获取时，首先会用CAS更新这个volatile变量,这个操做同时具备volatile读和volatile写的内存语义。

从本文对ReentrantLock的分析能够看出，锁释放-获取的内存语义的实现至少有下面两种方式：

利用volatile变量的写-读所具备的内存语义。
利用CAS所附带的volatile读和volatile写的内存语义。

concurrent包的实现

因为java的CAS同时具备 volatile 读和volatile写的内存语义，所以Java线程之间的通讯如今有了下面四种方式：

A线程写volatile变量，随后B线程读这个volatile变量。
A线程写volatile变量，随后B线程用CAS更新这个volatile变量。
A线程用CAS更新一个volatile变量，随后B线程用CAS更新这个volatile变量。
A线程用CAS更新一个volatile变量，随后B线程读这个volatile变量。

Java的CAS会使用现代处理器上提供的高效机器级别原子指令，这些原子指令以原子方式对内存执行读-改-写操做，这是在多处理器中实现同步的关键（从本质上来讲，可以支持原子性读-改-写指令的计算机器，是顺序计算图灵机的异步等价机器，所以任何现代的多处理器都会去支持某种能对内存执行原子性读-改-写操做的原子指令）。同时，volatile变量的读/写和CAS能够实现线程之间的通讯。把这些特性整合在一块儿，就造成了整个concurrent包得以实现的基石。若是咱们仔细分析concurrent包的源代码实现，会发现一个通用化的实现模式：

首先，声明共享变量为volatile；
而后，使用CAS的原子条件更新来实现线程之间的同步；
同时，配合以volatile的读/写和CAS所具备的volatile读和写的内存语义来实现线程之间的通讯。

AQS，非阻塞数据结构和原子变量类（java.util.concurrent.atomic包中的类），这些concurrent包中的基础类都是使用这种模式来实现的，而concurrent包中的高层类又是依赖于这些基础类来实现的。从总体来看，concurrent包的实现示意图以下：

深刻理解Java内存模型（六）——final

面介绍的锁和volatile相比较，对final域的读和写更像是普通的变量访问。对于final域，编译器和处理器要遵照两个重排序规则：

在构造函数内对一个final域的写入，与随后把这个被构造对象的引用赋值给一个引用变量，这两个操做之间不能重排序。
初次读一个包含final域的对象的引用，与随后初次读这个final域，这两个操做之间不能重排序。

下面，咱们经过一些示例性的代码来分别说明这两个规则：

public class FinalExample {
    int i;                            //普通变量
    final int j;                      //final变量
    static FinalExample obj;

    public void FinalExample () {     //构造函数
        i = 1;                        //写普通域
        j = 2;                        //写final域
    }

    public static void writer () {    //写线程A执行
        obj = new FinalExample ();
    }

    public static void reader () {       //读线程B执行
        FinalExample object = obj;       //读对象引用
        int a = object.i;                //读普通域
        int b = object.j;                //读final域
    }
}

这里假设一个线程A执行writer ()方法，随后另外一个线程B执行reader ()方法。下面咱们经过这两个线程的交互来讲明这两个规则。

写final域的重排序规则

写final域的重排序规则禁止把final域的写重排序到构造函数以外。这个规则的实现包含下面2个方面：

JMM禁止编译器把final域的写重排序到构造函数以外。
编译器会在final域的写以后，构造函数return以前，插入一个StoreStore屏障。这个屏障禁止处理器把final域的写重排序到构造函数以外。

如今让咱们分析writer ()方法。writer ()方法只包含一行代码：finalExample = new FinalExample ()。这行代码包含两个步骤：

构造一个FinalExample类型的对象；
把这个对象的引用赋值给引用变量obj。

假设线程B读对象引用与读对象的成员域之间没有重排序（立刻会说明为何须要这个假设），下图是一种可能的执行时序：

在上图中，写普通域的操做被编译器重排序到了构造函数以外，读线程B错误的读取了普通变量i初始化以前的值。而写final域的操做，被写final域的重排序规则“限定”在了构造函数以内，读线程B正确的读取了final变量初始化以后的值。

写final域的重排序规则能够确保：在对象引用为任意线程可见以前，对象的final域已经被正确初始化过了，而普通域不具备这个保障。以上图为例，在读线程B“看到”对象引用obj时，极可能obj对象尚未构造完成（对普通域i的写操做被重排序到构造函数外，此时初始值2尚未写入普通域i）。

读final域的重排序规则

读final域的重排序规则以下：

在一个线程中，初次读对象引用与初次读该对象包含的final域，JMM禁止处理器重排序这两个操做（注意，这个规则仅仅针对处理器）。编译器会在读final域操做的前面插入一个LoadLoad屏障。

初次读对象引用与初次读该对象包含的final域，这两个操做之间存在间接依赖关系。因为编译器遵照间接依赖关系，所以编译器不会重排序这两个操做。大多数处理器也会遵照间接依赖，大多数处理器也不会重排序这两个操做。但有少数处理器容许对存在间接依赖关系的操做作重排序（好比alpha处理器），这个规则就是专门用来针对这种处理器。

reader()方法包含三个操做：

初次读引用变量obj;
初次读引用变量obj指向对象的普通域j。
初次读引用变量obj指向对象的final域i。

如今咱们假设写线程A没有发生任何重排序，同时程序在不遵照间接依赖的处理器上执行，下面是一种可能的执行时序：

在上图中，读对象的普通域的操做被处理器重排序到读对象引用以前。读普通域时，该域尚未被写线程A写入，这是一个错误的读取操做。而读final域的重排序规则会把读对象final域的操做“限定”在读对象引用以后，此时该final域已经被A线程初始化过了，这是一个正确的读取操做。

读final域的重排序规则能够确保：在读一个对象的final域以前，必定会先读包含这个final域的对象的引用。在这个示例程序中，若是该引用不为null，那么引用对象的final域必定已经被A线程初始化过了。

若是final域是引用类型

上面咱们看到的final域是基础数据类型，下面让咱们看看若是final域是引用类型，将会有什么效果？

请看下列示例代码：

public class FinalReferenceExample {
final int[] intArray;                     //final是引用类型
static FinalReferenceExample obj;

public FinalReferenceExample () {        //构造函数
    intArray = new int[1];              //1
    intArray[0] = 1;                   //2
}

public static void writerOne () {          //写线程A执行
    obj = new FinalReferenceExample ();  //3
}

public static void writerTwo () {          //写线程B执行
    obj.intArray[0] = 2;                 //4
}

public static void reader () {              //读线程C执行
    if (obj != null) {                    //5
        int temp1 = obj.intArray[0];       //6
    }
}
}

这里final域为一个引用类型，它引用一个int型的数组对象。对于引用类型，写final域的重排序规则对编译器和处理器增长了以下约束：

在构造函数内对一个final引用的对象的成员域的写入，与随后在构造函数外把这个被构造对象的引用赋值给一个引用变量，这两个操做之间不能重排序。

对上面的示例程序，咱们假设首先线程A执行writerOne()方法，执行完后线程B执行writerTwo()方法，执行完后线程C执行reader ()方法。下面是一种可能的线程执行时序：

在上图中，1是对final域的写入，2是对这个final域引用的对象的成员域的写入，3是把被构造的对象的引用赋值给某个引用变量。这里除了前面提到的1不能和3重排序外，2和3也不能重排序。

JMM能够确保读线程C至少能看到写线程A在构造函数中对final引用对象的成员域的写入。即C至少能看到数组下标0的值为1。而写线程B对数组元素的写入，读线程C可能看的到，也可能看不到。JMM不保证线程B的写入对读线程C可见，由于写线程B和读线程C之间存在数据竞争，此时的执行结果不可预知。

若是想要确保读线程C看到写线程B对数组元素的写入，写线程B和读线程C之间须要使用同步原语（lock或volatile）来确保内存可见性。

为何final引用不能从构造函数内“逸出”

前面咱们提到过，写final域的重排序规则能够确保：在引用变量为任意线程可见以前，该引用变量指向的对象的final域已经在构造函数中被正确初始化过了。其实要获得这个效果，还须要一个保证：在构造函数内部，不能让这个被构造对象的引用为其余线程可见，也就是对象引用不能在构造函数中“逸出”。为了说明问题，让咱们来看下面示例代码：

public class FinalReferenceEscapeExample {
final int i;
static FinalReferenceEscapeExample obj;

public FinalReferenceEscapeExample () {
    i = 1;                              //1写final域
    obj = this;                          //2 this引用在此“逸出”
}

public static void writer() {
    new FinalReferenceEscapeExample ();
}

public static void reader {
    if (obj != null) {                     //3
        int temp = obj.i;                 //4
    }
}
}

假设一个线程A执行writer()方法，另外一个线程B执行reader()方法。这里的操做2使得对象还未完成构造前就为线程B可见。即便这里的操做2是构造函数的最后一步，且即便在程序中操做2排在操做1后面，执行read()方法的线程仍然可能没法看到final域被初始化后的值，由于这里的操做1和操做2之间可能被重排序。实际的执行时序可能以下图所示：

从上图咱们能够看出：在构造函数返回前，被构造对象的引用不能为其余线程可见，由于此时的final域可能尚未被初始化。在构造函数返回后，任意线程都将保证能看到final域正确初始化以后的值。

final语义在处理器中的实现

如今咱们以x86处理器为例，说明final语义在处理器中的具体实现。

上面咱们提到，写final域的重排序规则会要求译编器在final域的写以后，构造函数return以前，插入一个StoreStore障屏。读final域的重排序规则要求编译器在读final域的操做前面插入一个LoadLoad屏障。

因为x86处理器不会对写-写操做作重排序，因此在x86处理器中，写final域须要的StoreStore障屏会被省略掉。一样，因为x86处理器不会对存在间接依赖关系的操做作重排序，因此在x86处理器中，读final域须要的LoadLoad屏障也会被省略掉。也就是说在x86处理器中，final域的读/写不会插入任何内存屏障！

JSR-133为何要加强final的语义

在旧的Java内存模型中，最严重的一个缺陷就是线程可能看到final域的值会改变。好比，一个线程当前看到一个整形final域的值为0（还未初始化以前的默认值），过一段时间以后这个线程再去读这个final域的值时，却发现值变为了1（被某个线程初始化以后的值）。最多见的例子就是在旧的Java内存模型中，String的值可能会改变（参考文献2中有一个具体的例子，感兴趣的读者能够自行参考，这里就不赘述了）。

为了修补这个漏洞，JSR-133专家组加强了final的语义。经过为final域增长写和读重排序规则，能够为java程序员提供初始化安全保证：只要对象是正确构造的（被构造对象的引用在构造函数中没有“逸出”），那么不须要使用同步（指lock和volatile的使用），就能够保证任意线程都能看到这个final域在构造函数中被初始化以后的值。

深刻理解Java内存模型（七）——总结

处理器内存模型

顺序一致性内存模型是一个理论参考模型，JMM和处理器内存模型在设计时一般会把顺序一致性内存模型做为参照。JMM和处理器内存模型在设计时会对顺序一致性模型作一些放松，由于若是彻底按照顺序一致性模型来实现处理器和JMM，那么不少的处理器和编译器优化都要被禁止，这对执行性能将会有很大的影响。

根据对不一样类型读/写操做组合的执行顺序的放松，能够把常见处理器的内存模型划分为下面几种类型：

放松程序中写-读操做的顺序，由此产生了total store ordering内存模型（简称为TSO）。
在前面1的基础上，继续放松程序中写-写操做的顺序，由此产生了partial store order 内存模型（简称为PSO）。
在前面1和2的基础上，继续放松程序中读-写和读-读操做的顺序，由此产生了relaxed memory order内存模型（简称为RMO）和PowerPC内存模型。

注意，这里处理器对读/写操做的放松，是以两个操做之间不存在数据依赖性为前提的（由于处理器要遵照as-if-serial语义，处理器不会对存在数据依赖性的两个内存操做作重排序）。

下面的表格展现了常见处理器内存模型的细节特征：

内存模型名称	对应的处理器	Store-Load 重排序	Store-Store重排序	Load-Load 和Load-Store重排序	能够更早读取到其它处理器的写	能够更早读取到当前处理器的写
TSO	sparc-TSO X64	Y				Y
PSO	sparc-PSO	Y	Y			Y
RMO	ia64	Y	Y	Y		Y
PowerPC	PowerPC	Y	Y	Y	Y	Y

在这个表格中，咱们能够看到全部处理器内存模型都容许写-读重排序，缘由在第一章以说明过：它们都使用了写缓存区，写缓存区可能致使写-读操做重排序。同时，咱们能够看到这些处理器内存模型都容许更早读到当前处理器的写，缘由一样是由于写缓存区：因为写缓存区仅对当前处理器可见，这个特性致使当前处理器能够比其余处理器先看到临时保存在本身的写缓存区中的写。

上面表格中的各类处理器内存模型，从上到下，模型由强变弱。越是追求性能的处理器，内存模型设计的会越弱。由于这些处理器但愿内存模型对它们的束缚越少越好，这样它们就能够作尽量多的优化来提升性能。

因为常见的处理器内存模型比JMM要弱，java编译器在生成字节码时，会在执行指令序列的适当位置插入内存屏障来限制处理器的重排序。同时，因为各类处理器内存模型的强弱并不相同，为了在不一样的处理器平台向程序员展现一个一致的内存模型，JMM在不一样的处理器中须要插入的内存屏障的数量和种类也不相同。下图展现了JMM在不一样处理器内存模型中须要插入的内存屏障的示意图：

如上图所示，JMM屏蔽了不一样处理器内存模型的差别，它在不一样的处理器平台之上为java程序员呈现了一个一致的内存模型。

JMM，处理器内存模型与顺序一致性内存模型之间的关系

JMM是一个语言级的内存模型，处理器内存模型是硬件级的内存模型，顺序一致性内存模型是一个理论参考模型。下面是语言内存模型，处理器内存模型和顺序一致性内存模型的强弱对比示意图：

从上图咱们能够看出：常见的4种处理器内存模型比经常使用的3中语言内存模型要弱，处理器内存模型和语言内存模型都比顺序一致性内存模型要弱。同处理器内存模型同样，越是追求执行性能的语言，内存模型设计的会越弱。

JMM的设计

从JMM设计者的角度来讲，在设计JMM时，须要考虑两个关键因素：

程序员对内存模型的使用。程序员但愿内存模型易于理解，易于编程。程序员但愿基于一个强内存模型来编写代码。
编译器和处理器对内存模型的实现。编译器和处理器但愿内存模型对它们的束缚越少越好，这样它们就能够作尽量多的优化来提升性能。编译器和处理器但愿实现一个弱内存模型。

因为这两个因素互相矛盾，因此JSR-133专家组在设计JMM时的核心目标就是找到一个好的平衡点：一方面要为程序员提供足够强的内存可见性保证；另外一方面，对编译器和处理器的限制要尽量的放松。下面让咱们看看JSR-133是如何实现这一目标的。

为了具体说明，请看前面提到过的计算圆面积的示例代码：

double pi  = 3.14;    //A
double r   = 1.0;     //B
double area = pi * r * r; //C

上面计算圆的面积的示例代码存在三个happens- before关系：

A happens- before B；
B happens- before C；
A happens- before C；

因为A happens- before B，happens- before的定义会要求：A操做执行的结果要对B可见，且A操做的执行顺序排在B操做以前。可是从程序语义的角度来讲，对A和B作重排序即不会改变程序的执行结果，也还能提升程序的执行性能（容许这种重排序减小了对编译器和处理器优化的束缚）。也就是说，上面这3个happens- before关系中，虽然2和3是必须要的，但1是没必要要的。所以，JMM把happens- before要求禁止的重排序分为了下面两类：

会改变程序执行结果的重排序。
不会改变程序执行结果的重排序。

JMM对这两种不一样性质的重排序，采起了不一样的策略：

对于会改变程序执行结果的重排序，JMM要求编译器和处理器必须禁止这种重排序。
对于不会改变程序执行结果的重排序，JMM对编译器和处理器不做要求（JMM容许这种重排序）。

下面是JMM的设计示意图：

从上图能够看出两点：

JMM向程序员提供的happens- before规则能知足程序员的需求。JMM的happens- before规则不但简单易懂，并且也向程序员提供了足够强的内存可见性保证（有些内存可见性保证其实并不必定真实存在，好比上面的A happens- before B）。
JMM对编译器和处理器的束缚已经尽量的少。从上面的分析咱们能够看出，JMM实际上是在遵循一个基本原则：只要不改变程序的执行结果（指的是单线程程序和正确同步的多线程程序），编译器和处理器怎么优化都行。好比，若是编译器通过细致的分析后，认定一个锁只会被单个线程访问，那么这个锁能够被消除。再好比，若是编译器通过细致的分析后，认定一个volatile变量仅仅只会被单个线程访问，那么编译器能够把这个volatile变量看成一个普通变量来对待。这些优化既不会改变程序的执行结果，又能提升程序的执行效率。

JMM的内存可见性保证

Java程序的内存可见性保证按程序类型能够分为下列三类：

单线程程序。单线程程序不会出现内存可见性问题。编译器，runtime和处理器会共同确保单线程程序的执行结果与该程序在顺序一致性模型中的执行结果相同。
正确同步的多线程程序。正确同步的多线程程序的执行将具备顺序一致性（程序的执行结果与该程序在顺序一致性内存模型中的执行结果相同）。这是JMM关注的重点，JMM经过限制编译器和处理器的重排序来为程序员提供内存可见性保证。
未同步/未正确同步的多线程程序。JMM为它们提供了最小安全性保障：线程执行时读取到的值，要么是以前某个线程写入的值，要么是默认值（0，null，false）。

下图展现了这三类程序在JMM中与在顺序一致性内存模型中的执行结果的异同：

只要多线程程序是正确同步的，JMM保证该程序在任意的处理器平台上的执行结果，与该程序在顺序一致性内存模型中的执行结果一致。

JSR-133对旧内存模型的修补

JSR-133对JDK5以前的旧内存模型的修补主要有两个：

加强volatile的内存语义。旧内存模型容许volatile变量与普通变量重排序。JSR-133严格限制volatile变量与普通变量的重排序，使volatile的写-读和锁的释放-获取具备相同的内存语义。
加强final的内存语义。在旧内存模型中，屡次读取同一个final变量的值可能会不相同。为此，JSR-133为final增长了两个重排序规则。如今，final具备了初始化安全性。