深刻学习Java多线程——并发机制底层实现原理

时间 2019-11-05

原文原文链接

Java代码在编译后会变成Java字节码，字节码被类加载器加载到JVM里，JVM执行字节码，最终须要转化为汇编指令在CPU上执行，Java中所使用的并发机制依赖于JVM的实现和CPU的指令。建议先对Java并发的内存模型进行了解。html

对于并发编程的底层实现，必需要保证明现三大特性：java

可见性：即多个线程访问同一个变量时，一个线程修改了这个变量的值，其余线程可以当即看获得修改的值。

原子性：一个操做或者多个操做要么所有执行而且执行的过程不会被任何因素打断，或者一旦中断就都不执行。

有序性：程序执行的顺序按照代码的前后顺序执行。

1.volatile

在多线程并发编程中synchronized和volatile都扮演着重要的角色，volatile是轻量级的synchronized，它在多处理器开发中保证了共享变量的“可见性”。可见性的意思是当一个线程修改一个共享变量时，另一个线程能读到这个修改的值。若是volatile变量修饰符使用恰当的话，它比synchronized的使用和执行成本更低，由于它不会引发线程上下文的切换和调度。编程

推荐博客：缓存

http://www.importnew.com/24082.html安全

http://www.cnblogs.com/dolphin0520/p/3920373.html多线程

1.1实现原理

实现可见性的底层原理，可经过观察Java代码与汇编代码查看。并发

Java代码：ide

instance = new Singleton(); // instance是volatile变量

汇编代码：性能

0x01a3de1d: movb $0×0,0×1104800(%esi);
0x01a3de24: lock addl $0×0,(%esp);

有volatile变量修饰的共享变量进行写操做的时候会多出第二行汇编代码，Lock前缀的指令在多核处理器下会引起了两件事情：学习

（1）将当前处理器缓存行的数据写回到系统内存。

（2）这个写回内存的操做会使在其余CPU里缓存了该内存地址的数据无效。

本来为了提升处理速度，处理器不直接和内存进行通讯，而是先将系统内存的数据读到内部缓存后再进行操做，但操做完不知道什么时候会写到内存。

可是，若是对声明了volatile的变量进行写操做，JVM就会向处理器发送一条Lock前缀的指令，将这个变量所在缓存行的数据写回到系统内存。同时还有一个问题，就算写回到内存，若是其余处理器缓存的值仍是旧的，再执行计算操做就会有问题。因此，在多处理器下，为了保证各个处理器的缓存是一致的，就会实现缓存一致性协议，每一个处理器经过嗅探在总线上传播的数据来检查本身缓存的值是否是过时了，当处理器发现本身缓存行对应的内存地址被修改，就会将当前处理器的缓存行设置成无效状态，当处理器对这个数据进行修改操做的时候，会从新从系统内存中把数据读处处理器缓存里。

我我的理解就是：在多核处理器中，每一个处理器处理计算一个线程的（任务）代码，好比说一个四核处理器，有一个核正在处理一个包含对共享变量进行更改赋值的操做的线程，另外三个处理器处理一个包含读取同一个共享变量操做的线程。

若是该共享变量不是volatile，首先，CPU会从系统内存中获取数据到CPU缓存中进行相应的处理（关于内存、高速缓存和CPU寄存器，能够参考计算机中内存、cache和寄存器之间的关系及区别），当处理对共享变量进行更改赋值的操做完成后，并不必定会当即将处理后的数据写回系统内存，这就可能会致使当某个赋值操做完成（即更改操做的那行代码执行）后，另外一个读取共享变量的线程会读到错误数据，或者说未改变的数据。（以下列代码测试中两个线程的i值应该至少一个为2，可是两个都为1就说明发生了这种状况）

若是该共享变量是volatile的，那么CPU会从系统内存中获取数据到CPU缓存中进行相应的处理，当处理对共享变量进行更改赋值的操做（即更改操做的那行代码执行）完成后，会当即将处理后的数据写回系统内存，而且其余三个处理器经过缓存一致性协议检查本身缓存的数据是否过时，是则会从新从系统内存读取。

简单来讲，volatile的两条实现原则是：

（1）Lock前缀的汇编指令会引发处理器缓存回写到内存

（2）一个处理器的缓存回写到内存会致使其余处理器的缓存无效。

//volatile 关键字修饰的变量与无该关键字修饰的变量在多线程读改写时的区别
public class KeyWord_volatile{
	int i=0;
	volatile int x=0;
	class Runner implements Runnable{
		public void run() {
			i++;
			System.out.println(Thread.currentThread().getName()+"计算的i为:"+i);
			x++;
			System.out.println(Thread.currentThread().getName()+"计算的x为:"+x);
		}
	}
	Runnable getRun(){
		return new Runner();
	}
	public static void main(String[] args) {
		KeyWord_volatile v=new KeyWord_volatile();
		Runner r1=(Runner) v.getRun();
		Runner r2=(Runner) v.getRun();
		Thread t1=new Thread(r1);
		Thread t2=new Thread(r1);
		t1.start();
		t2.start();
	}
}
//测试结果（随机，可能会发生）
Thread-1计算的i为:1
Thread-0计算的i为:1
Thread-1计算的x为:1
Thread-0计算的x为:2

2.synchronized

2.1 实现原理

（1）synchronized实现同步的基础：Java中的每个对象均可以做为锁。具体表现为如下3种形式。

对于普通同步方法，锁是当前实例对象。
对于静态同步方法，锁是当前类的Class对象。
对于同步方法块，锁是Synchonized括号里配置的对象。当一个线程试图访问同步代码块时，它首先必须获得锁，退出或抛出异常时必须释放锁。

当一个线程试图访问synchronized同步代码块时，它首先必须获得锁，退出或抛出异常时必须释放锁。那么这个锁是什么？存储在那里？

（2） Synchonized在JVM里的实现原理：JVM基于进入和退出Monitor对象来实现方法同步和代码块同步，但二者的实现细节不同。代码块同步是使用monitorenter 和monitorexit指令实现的，而方法同步是使用另一种方式实现的，细节在JVM规范里并无详细说明。可是，方法的同步一样可使用这两个指令来实现。 monitorenter指令是在编译后插入到同步代码块的开始位置，而monitorexit是插入到方法结束处和异常处，JVM要保证每一个monitorenter必须有对应的monitorexit与之配对。任何对象都有一个monitor与之关联，当且一个monitor被持有后，它将处于锁定状态。线程执行到monitorenter指令时，将会尝试获取对象所对应的monitor的全部权，即尝试得到对象的锁。synchronized用的锁是存在Java对象头里的。

（3）对象头

https://blog.csdn.net/yinbucheng/article/details/70037521

2.2 锁的升级与对比

为了减小得到锁和释放锁带来的性能消耗，引入了“偏向锁”和“轻量级锁”。锁一共有4种状态，级别从低到高依次是：无锁状态、偏向锁状态、轻量级锁状态和重量级锁状态，这几个状态会随着竞争状况逐渐升级。锁能够升级但不能降级，意味着偏向锁升级成轻量级锁后不能降级成偏向锁。这种锁升级却不能降级的策略，目的是为了提升得到锁和释放锁的效率。

1.偏向锁

大多数状况下，锁不只不存在多线程竞争，并且老是由同一线程屡次得到，为了让线程得到锁的代价更低而引入了偏向锁。当一个线程访问同步块并获取锁时，会在对象头和栈帧中的锁记录里存储锁偏向的线程ID，之后该线程在进入和退出同步块时不须要进行CAS操做来加锁和解锁，只需简单地测试一下对象头的Mark Word里是否存储着指向当前线程的偏向锁。若是测试成功，表示线程已经得到了锁。若是测试失败，则须要再测试一下Mark Word中偏向锁的标识是否设置成1（表示当前是偏向锁）：若是没有设置，则使用CAS竞争锁；若是设置了，则尝试使用CAS将对象头的偏向锁指向当前线程。

（1）偏向锁的撤销

偏向锁使用了一种等到竞争出现才释放锁的机制，因此当其余线程尝试竞争偏向锁时，持有偏向锁的线程才会释放锁。偏向锁的撤销，须要等待全局安全点（在这个时间点上没有正在执行的字节码）。它会首先暂停拥有偏向锁的线程，而后检查持有偏向锁的线程是否活着，若是线程不处于活动状态，则将对象头设置成无锁状态；若是线程仍然活着，拥有偏向锁的栈会被执行，遍历偏向对象的锁记录，栈中的锁记录和对象头的Mark Word要么从新偏向于其余线程，要么恢复到无锁或者标记对象不适合做为偏向锁，最后唤醒暂停的线程。

（2）关闭偏向锁：偏向锁在Java 6和Java 7里是默认启用的，可是它在应用程序启动几秒钟以后才激活，如有必要可使用JVM参数来关闭延迟：-XX:BiasedLockingStartupDelay=0。若是你肯定应用程序里全部的锁一般状况下处于竞争状态，能够经过JVM参数关闭偏向锁：-XX:- UseBiasedLocking=false，那么程序默认会进入轻量级锁状态。

2.轻量级锁

（1）轻量级锁加锁：线程在执行同步块以前，JVM会先在当前线程的栈桢中建立用于存储锁记录的空间，并将对象头中的Mark Word复制到锁记录中，官方称为Displaced Mark Word。而后线程尝试使用 CAS将对象头中的Mark Word替换为指向锁记录的指针。若是成功，当前线程得到锁，若是失败，表示其余线程竞争锁，当前线程便尝试使用自旋来获取锁。

（2）轻量级锁解锁：轻量级解锁时，会使用原子的CAS操做将Displaced Mark Word替换回到对象头，若是成功，则表示没有竞争发生。若是失败，表示当前锁存在竞争，锁就会膨胀成重量级锁。

由于自旋会消耗CPU，为了不无用的自旋（好比得到锁的线程被阻塞住了），一旦锁升级成重量级锁，就不会再恢复到轻量级锁状态。当锁处于这个状态下，其余线程试图获取锁时，都会被阻塞住，当持有锁的线程释放锁以后会唤醒这些线程，被唤醒的线程就会进行新一轮的夺锁之争。

3.各级别锁的优缺点对比

还能够参考学习这篇文章http://www.javashuo.com/article/p-eawupvdg-ba.html

3.原子操做的实现

3.1 处理器实现原子操做

1.相关CPU术语

缓存行：缓存的最小存储单位。
CAS（比较并交换，即compare and swap）：须要输入两个数值，一个旧值（操做前指望的值），一个新值，在操做期间，先比较旧值是不是指望的旧值，若是是则表示没有发生变化，则进行交换返回true，不然不进行交换并返回false。
CPU流水线：相似于工业生产时的装配流水线，在CPU中有多个不一样功能的电路单元组成一条指令处理流水线，而后将一条处理器指令分红多个部分，与处理单元一一对应，分别执行提升运算速度。
内存顺序冲突：由假共享引发，假共享是指多个cpu同时修改同一个缓存行的不一样部分而引发的其中一个CPU的操做无效，当出现内存顺序冲突时，CPU必须清空流水线。

2.实现方式

处理器提供总线锁定和缓存锁定两个机制来保证复杂内存操做的原子性。

（1）使用总线锁定：若是多个处理器同时对共享变量进行读改写操做（i++就是经典的读改写操做），那么共享变量就会被多个处理器同时进行操做，这样读改写操做就不是原子的，操做完以后共享变量的值会和指望的不一致。举个例子，若是i=1，咱们进行两次i++操做，咱们指望的结果是3，可是有可能结果是2。缘由多是多个处理器同时从各自的缓存中读取变量i，分别进行加1操做，而后分别写入系统内存中。那么，想要保证读改写共享变量的操做是原子的，就必须保证CPU1读改写共享变量的时候，CPU2不能操做缓存了该共享变量内存地址的缓存。

处理器使用总线锁就是来解决这个问题的。所谓总线锁就是使用处理器提供的一个 LOCK＃信号，当一个处理器在总线上输出此信号时，其余处理器的请求将被阻塞住，那么该处理器能够独占共享内存。

//volatile 关键字使用的时缓存锁来实现
public class KeyWord_volatile{
	int i=0;
	volatile int x=0;
	class Runner implements Runnable{
		public void run() {
			i++;
			System.out.println(Thread.currentThread().getName()+"计算的i为:"+i);
			x++;
			System.out.println(Thread.currentThread().getName()+"计算的x为:"+x);
		}
	}
	Runnable getRun(){
		return new Runner();
	}
	public static void main(String[] args) {
		KeyWord_volatile v=new KeyWord_volatile();
		Runner r1=(Runner) v.getRun();
		Runner r2=(Runner) v.getRun();
		Thread t1=new Thread(r1);
		Thread t2=new Thread(r1);
		t1.start();
		t2.start();
	}
}
//测试结果（随机，可能会发生）
Thread-1计算的i为:1
Thread-0计算的i为:1
Thread-1计算的x为:1
Thread-0计算的x为:2

（2）使用缓存锁保证原子性：在同一时刻，咱们只需保证对某个内存地址的操做是原子性便可，但总线锁定把CPU和内存之间的通讯锁住了，这使得锁按期间，其余处理器不能操做其余内存地址的数据，因此总线锁定的开销比较大，目前处理器在某些场合下使用缓存锁定代替总线锁定来进行优化。

处理器可使用“缓存锁定”的方式来实现复杂的原子性。所谓“缓存锁定”是指内存区域若是被缓存在处理器的缓存行中，而且在Lock操做期间被锁定，那么当它执行锁操做回写到内存时，处理器不在总线上发出LOCK＃信号，而是修改内部的内存地址，并容许它的缓存一致性机制来保证操做的原子性，由于缓存一致性机制会阻止同时修改由两个以上处理器缓存的内存区域数据，当其余处理器回写已被锁定的缓存行的数据时，会使缓存行无效。

有两种状况处理器不能使用缓存锁定：

（1）第一种状况是：当操做的数据不能被缓存在处理器内部，或操做的数据跨多个缓存行时，则处理器会调用总线锁定。

（2）第二种状况是：有些处理器不支持缓存锁定。对于Intel 486和Pentium处理器，就算锁定的内存区域在处理器的缓存行中也会调用总线锁定。

3.2 Java中实现原子操做

在Java中能够经过锁和循环CAS的方式来实现原子操做。

1.使用循环CAS实现原子操做

自旋CAS实现的基本思路就是循环进行CAS操做直到成功为止，如下代码实现了一个基于CAS线程安全的计数器方法safeCount和一个非线程安全的计数器count。

import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.atomic.AtomicInteger;

public class Counter {
	private AtomicInteger atomicI = new AtomicInteger(0);
	private int i = 0;

	public static void main(String[] args) {
		final Counter cas = new Counter();
		List<Thread> ts = new ArrayList<Thread>(600);
		long start = System.currentTimeMillis();
		for (int j = 0; j < 100; j++) {
			Thread t = new Thread(new Runnable() {
				@Override
				public void run() {
					for (int i = 0; i < 10000; i++) {
						cas.count();
						cas.safeCount();
					}
				}
			});
			ts.add(t);
		}
		for (Thread t : ts) {
			t.start();
		}
		// 等待全部线程执行完成
		for (Thread t : ts) {
			try {
				t.join();
			} catch (InterruptedException e) {
				e.printStackTrace();
			}
		}
		System.out.println(cas.i);
		System.out.println(cas.atomicI.get());
		System.out.println(System.currentTimeMillis() - start);
	}

	/** * 使用CAS实现线程安全计数器 */
	private void safeCount() {
		for (;;) {
			int i = atomicI.get();
			boolean suc = atomicI.compareAndSet(i, ++i);
			if (suc) {
				break;
			}
		}
	}

	/**
	 * 非线程安全计数器
	 */
	private void count() {
		i++;
	}

}

循环CAS的三大问题：ABA问题，循环时间长开销大，以及只能保证一个共享变量的原子操做。

ABA问题：由于CAS须要在操做值的时候，检查值有没有发生变化，若是没有发生变化则更新，可是若是一个值原来是A，变成了B，又变成了A，那么使用CAS进行检查时会发现它的值没有发生变化，可是实际上却变化了。ABA问题的解决思路就是使用版本号，在变量前面追加上版本号，每次变量更新的时候把版本号加1，那么A→B→A就会变成1A→2B→3A。从 Java 1.5开始，JDK的Atomic包里提供了一个类AtomicStampedReference来解决ABA问题。这个类的compareAndSet方法的做用是首先检查当前引用是否等于预期引用，而且检查当前标志是否等于预期标志，若是所有相等，则以原子方式将该引用和该标志的值设置为给定的更新值。
循环时间长开销大：自旋CAS若是长时间不成功，会给CPU带来很是大的执行开销。如果JVM能支持处理器提供的pause指令，那么效率会有必定的提高。pause指令有两个做用：第一，它能够延迟流水线执行指令（de-pipeline），使CPU不会消耗过多的执行资源，延迟的时间取决于具体实现的版本，在一些处理器上延迟时间是零；第二，它能够避免在退出循环的时候因内存顺序冲突（Memory Order Violation）而引发CPU流水线被清空（CPU Pipeline Flush），从而提升CPU的执行效率。
只能保证一个共享变量的原子操做：当对一个共享变量执行操做时，咱们可使用循环CAS的方式来保证原子操做，可是对多个共享变量操做时，循环CAS就没法保证操做的原子性，这个时候就能够用锁。还有一个取巧的办法，就是把多个共享变量合并成一个共享变量来操做。好比，有两个共享变量i＝2，j=a，合并一下ij=2a，而后用CAS来操做ij。从Java 1.5开始， JDK提供了AtomicReference类来保证引用对象之间的原子性，就能够把多个变量放在一个对象里来进行CAS操做。

2 使用锁机制来实现原子性操做

锁机制保证了只有得到锁的线程才可以操做锁定的内存区域。JVM内部实现了不少种锁机制，有偏向锁、轻量级锁和互斥锁。有意思的是除了偏向锁，JVM实现锁的方式都用了循环 CAS，即当一个线程想进入同步块的时候使用循环CAS的方式来获取锁，当它退出同步块的时候使用循环CAS释放锁。