GitHub 2.2k Star 的Java工程师成神之路 ,不来了解一下吗?html
GitHub 2.2k Star 的Java工程师成神之路 ,真的不来了解一下吗?java
GitHub 2.2k Star 的Java工程师成神之路 ,真的肯定不来了解一下吗?git
前几天,发了一篇文章,介绍了一下JVM内存结构、Java内存模型以及Java对象模型之间的区别。有不少小伙伴反馈但愿能够深刻的讲解下每一个知识点。Java内存模型,是这三个知识点当中最晦涩难懂的一个,并且涉及到不少背景知识和相关知识。程序员
网上有不少关于Java内存模型的文章,在《深刻理解Java虚拟机》和《Java并发编程的艺术》等书中也都有关于这个知识点的介绍。可是,不少人读完以后仍是搞不清楚,甚至有的人说本身更懵了。本文,就来总体的介绍一下Java内存模型,目的很简单,让你读完本文之后,就知道到底Java内存模型是什么,为何要有Java内存模型,Java内存模型解决了什么问题等。github
本文中,有不少定义和说法,都是笔者本身理解后定义出来的。但愿可以让读者能够对Java内存模型有更加清晰的认识。固然,若有偏颇,欢迎指正。编程
在介绍Java内存模型以前,先来看一下到底什么是计算机内存模型,而后再来看Java内存模型在计算机内存模型的基础上作了哪些事情。要说计算机的内存模型,就要说一下一段古老的历史,看一下为何要有内存模型。缓存
内存模型,英文名Memory Model,他是一个很老的老古董了。他是与计算机硬件有关的一个概念。那么我先给你介绍下他和硬件到底有啥关系。安全
咱们应该都知道,计算机在执行程序的时候,每条指令都是在CPU中执行的,而执行的时候,又免不了要和数据打交道。而计算机上面的数据,是存放在主存当中的,也就是计算机的物理内存啦。多线程
刚开始,还相安无事的,可是随着CPU技术的发展,CPU的执行速度愈来愈快。而因为内存的技术并无太大的变化,因此从内存中读取和写入数据的过程和CPU的执行速度比起来差距就会愈来愈大,这就致使CPU每次操做内存都要耗费不少等待时间。并发
这就像一家创业公司,刚开始,创始人和员工之间工做关系其乐融融,可是随着创始人的能力和野心愈来愈大,逐渐和员工之间出现了差距,普通员工原来越跟不上CEO的脚步。老板的每个命令,传到到基层员工以后,因为基层员工的理解能力、执行能力的欠缺,就会耗费不少时间。这也就无形中拖慢了整家公司的工做效率。
但是,不能由于内存的读写速度慢,就不发展CPU技术了吧,总不能让内存成为计算机处理的瓶颈吧。
因此,人们想出来了一个好的办法,就是在CPU和内存之间增长高速缓存。缓存的概念你们都知道,就是保存一份数据拷贝。他的特色是速度快,内存小,而且昂贵。
那么,程序的执行过程就变成了:
当程序在运行过程当中,会将运算须要的数据从主存复制一份到CPU的高速缓存当中,那么CPU进行计算时就能够直接从它的高速缓存读取数据和向其中写入数据,当运算结束以后,再将高速缓存中的数据刷新到主存当中。
以后,这家公司开始设立中层管理人员,管理人员直接归CEO领导,领导有什么指示,直接告诉管理人员,而后就能够去作本身的事情了。管理人员负责去协调底层员工的工做。由于管理人员是了解手下的人员以及本身负责的事情的。因此,大多数时候,公司的各类决策,通知等,CEO只要和管理人员之间沟通就够了。
而随着CPU能力的不断提高,一层缓存就慢慢的没法知足要求了,就逐渐的衍生出多级缓存。
按照数据读取顺序和与CPU结合的紧密程度,CPU缓存能够分为一级缓存(L1),二级缓存(L3),部分高端CPU还具备三级缓存(L3),每一级缓存中所储存的所有数据都是下一级缓存的一部分。
这三种缓存的技术难度和制形成本是相对递减的,因此其容量也是相对递增的。
那么,在有了多级缓存以后,程序的执行就变成了:
当CPU要读取一个数据时,首先从一级缓存中查找,若是没有找到再从二级缓存中查找,若是仍是没有就从三级缓存或内存中查找。
随着公司愈来愈大,老板要管的事情愈来愈多,公司的管理部门开始改革,开始出现高层,中层,底层等管理者。一级一级之间逐层管理。
单核CPU只含有一套L1,L2,L3缓存;若是CPU含有多个核心,即多核CPU,则每一个核心都含有一套L1(甚至和L2)缓存,而共享L3(或者和L2)缓存。
公司也分不少种,有些公司只有一个大Boss,他一我的说了算。可是有些公司有好比联席总经理、合伙人等机制。
单核CPU就像一家公司只有一个老板,全部命令都来自于他,那么就只须要一套管理班底就够了。
多核CPU就像一家公司是由多个合伙人共同创办的,那么,就须要给每一个合伙人都设立一套供本身直接领导的高层管理人员,多个合伙人共享使用的是公司的底层员工。
还有的公司,不断壮大,开始差分出各个子公司。各个子公司就是多个CPU了,互相以前没有共用的资源。互不影响。
下图为一个单CPU双核的缓存结构。
随着计算机能力不断提高,开始支持多线程。那么问题就来了。咱们分别来分析下单线程、多线程在单核CPU、多核CPU中的影响。
**单线程。**cpu核心的缓存只被一个线程访问。缓存独占,不会出现访问冲突等问题。
**单核CPU,多线程。**进程中的多个线程会同时访问进程中的共享数据,CPU将某块内存加载到缓存后,不一样线程在访问相同的物理地址的时候,都会映射到相同的缓存位置,这样即便发生线程的切换,缓存仍然不会失效。但因为任什么时候刻只能有一个线程在执行,所以不会出现缓存访问冲突。
**多核CPU,多线程。**每一个核都至少有一个L1 缓存。多个线程访问进程中的某个共享内存,且这多个线程分别在不一样的核心上执行,则每一个核心都会在各自的caehe中保留一份共享内存的缓冲。因为多核是能够并行的,可能会出现多个线程同时写各自的缓存的状况,而各自的cache之间的数据就有可能不一样。
在CPU和主存之间增长缓存,在多线程场景下就可能存在缓存一致性问题,也就是说,在多核CPU中,每一个核的本身的缓存中,关于同一个数据的缓存内容可能不一致。
若是这家公司的命令都是串行下发的话,那么就没有任何问题。
若是这家公司的命令都是并行下发的话,而且这些命令都是由同一个CEO下发的,这种机制是也没有什么问题。由于他的命令执行者只有一套管理体系。
若是这家公司的命令都是并行下发的话,而且这些命令是由多个合伙人下发的,这就有问题了。由于每一个合伙人只会把命令下达给本身直属的管理人员,而多个管理人员管理的底层员工多是公用的。
好比,合伙人1要辞退员工a,合伙人2要给员工a升职,升职后的话他再被辞退须要多个合伙人开会决议。两个合伙人分别把命令下发给了本身的管理人员。合伙人1命令下达后,管理人员a在辞退了员工后,他就知道这个员工被开除了。而合伙人2的管理人员2这时候在没获得消息以前,还认为员工a是在职的,他就欣然的接收了合伙人给他的升职a的命令。
上面提到在在CPU和主存之间增长缓存,在多线程场景下会存在缓存一致性问题。除了这种状况,还有一种硬件问题也比较重要。那就是为了使处理器内部的运算单元可以尽可能的被充分利用,处理器可能会对输入代码进行乱序执行处理。这就是处理器优化。
除了如今不少流行的处理器会对代码进行优化乱序处理,不少编程语言的编译器也会有相似的优化,好比Java虚拟机的即时编译器(JIT)也会作指令重排。
可想而知,若是任由处理器优化和编译器对指令重排的话,就可能致使各类各样的问题。
关于员工组织调整的状况,若是容许人事部在接到多个命令后进行随意拆分乱序执行或者重排的话,那么对于这个员工以及这家公司的影响是很是大的。
前面说的和硬件有关的概念你可能听得有点蒙,还不知道他到底和软件有啥关系。可是关于并发编程的问题你应该有所了解,好比原子性问题,可见性问题和有序性问题。
其实,原子性问题,可见性问题和有序性问题。是人们抽象定义出来的。而这个抽象的底层问题就是前面提到的缓存一致性问题、处理器优化问题和指令重排问题等。
这里简单回顾下这三个问题,并不许备深刻展开,感兴趣的读者能够自行学习。咱们说,并发编程,为了保证数据的安全,须要知足如下三个特性:
原子性是指在一个操做中就是cpu不能够在中途暂停而后再调度,既不被中断操做,要不执行完成,要不就不执行。
可见性是指当多个线程访问同一个变量时,一个线程修改了这个变量的值,其余线程可以当即看获得修改的值。
有序性即程序执行的顺序按照代码的前后顺序执行。
有没有发现,缓存一致性问题其实就是可见性问题。而处理器优化是能够致使原子性问题的。指令重排即会致使有序性问题。因此,后文将再也不提起硬件层面的那些概念,而是直接使用你们熟悉的原子性、可见性和有序性。
前面提到的,缓存一致性问题、处理器器优化的指令重排问题是硬件的不断升级致使的。那么,有没有什么机制能够很好的解决上面的这些问题呢?
最简单直接的作法就是废除处理器和处理器的优化技术、废除CPU缓存,让CPU直接和主存交互。可是,这么作虽然能够保证多线程下的并发问题。可是,这就有点因噎废食了。
因此,为了保证并发编程中能够知足原子性、可见性及有序性。有一个重要的概念,那就是——内存模型。
**为了保证共享内存的正确性(可见性、有序性、原子性),内存模型定义了共享内存系统中多线程程序读写操做行为的规范。**经过这些规则来规范对内存的读写操做,从而保证指令执行的正确性。它与处理器有关、与缓存有关、与并发有关、与编译器也有关。他解决了CPU多级缓存、处理器优化、指令重排等致使的内存访问问题,保证了并发场景下的一致性、原子性和有序性。
内存模型解决并发问题主要采用两种方式:限制处理器优化和使用内存屏障。本文就不深刻底层原理来展开介绍了,感兴趣的朋友能够自行学习。
前面介绍过了计算机内存模型,这是解决多线程场景下并发问题的一个重要规范。那么具体的实现是如何的呢,不一样的编程语言,在实现上可能有所不一样。
咱们知道,Java程序是须要运行在Java虚拟机上面的,Java内存模型(Java Memory Model ,JMM)就是一种符合内存模型规范的,屏蔽了各类硬件和操做系统的访问差别的,保证了Java程序在各类平台下对内存的访问都能保证效果一致的机制及规范。
提到Java内存模型,通常指的是JDK 5 开始使用的新的内存模型,主要由JSR-133: JavaTM Memory Model and Thread Specification 描述。感兴趣的能够参看下这份PDF文档(www.cs.umd.edu/~pugh/java/…
Java内存模型规定了全部的变量都存储在主内存中,每条线程还有本身的工做内存,线程的工做内存中保存了该线程中是用到的变量的主内存副本拷贝,线程对变量的全部操做都必须在工做内存中进行,而不能直接读写主内存。不一样的线程之间也没法直接访问对方工做内存中的变量,线程间变量的传递均须要本身的工做内存和主存之间进行数据同步进行。
而JMM就做用于工做内存和主存之间数据同步过程。他规定了如何作数据同步以及何时作数据同步。
这里面提到的主内存和工做内存,读者能够简单的类比成计算机内存模型中的主存和缓存的概念。特别须要注意的是,主内存和工做内存与JVM内存结构中的Java堆、栈、方法区等并非同一个层次的内存划分,没法直接类比。《深刻理解Java虚拟机》中认为,若是必定要勉强对应起来的话,从变量、主内存、工做内存的定义来看,主内存主要对应于Java堆中的对象实例数据部分。工做内存则对应于虚拟机栈中的部分区域。
因此,再来总结下,JMM是一种规范,目的是解决因为多线程经过共享内存进行通讯时,存在的本地内存数据不一致、编译器会对代码指令重排序、处理器会对代码乱序执行等带来的问题。
了解Java多线程的朋友都知道,在Java中提供了一系列和并发处理相关的关键字,好比volatile
、synchronized
、final
、concurren
包等。其实这些就是Java内存模型封装了底层的实现后提供给程序员使用的一些关键字。
在开发多线程的代码的时候,咱们能够直接使用synchronized
等关键字来控制并发,历来就不须要关心底层的编译器优化、缓存一致性等问题。因此,Java内存模型,除了定义了一套规范,还提供了一系列原语,封装了底层实现后,供开发者直接使用。
本文并不许备把全部的关键字逐一介绍其用法,由于关于各个关键字的用法,网上有不少资料。读者能够自行学习。本文还有一个重点要介绍的就是,咱们前面提到,并发编程要解决原子性、有序性和一致性的问题,咱们就再来看下,在Java中,分别使用什么方式来保证。
在Java中,为了保证原子性,提供了两个高级的字节码指令monitorenter
和monitorexit
。在synchronized的实现原理文章中,介绍过,这两个字节码,在Java中对应的关键字就是synchronized
。
所以,在Java中可使用synchronized
来保证方法和代码块内的操做是原子性的。
Java内存模型是经过在变量修改后将新值同步回主内存,在变量读取前从主内存刷新变量值的这种依赖主内存做为传递媒介的方式来实现的。
Java中的volatile
关键字提供了一个功能,那就是被其修饰的变量在被修改后能够当即同步到主内存,被其修饰的变量在每次是用以前都从主内存刷新。所以,可使用volatile
来保证多线程操做时变量的可见性。
除了volatile
,Java中的synchronized
和final
两个关键字也能够实现可见性。只不过实现方式不一样,这里再也不展开了。
在Java中,可使用synchronized
和volatile
来保证多线程之间操做的有序性。实现方式有所区别:
volatile
关键字会禁止指令重排。synchronized
关键字保证同一时刻只容许一条线程操做。
好了,这里简单的介绍完了Java并发编程中解决原子性、可见性以及有序性可使用的关键字。读者可能发现了,好像synchronized
关键字是万能的,他能够同时知足以上三种特性,这其实也是不少人滥用synchronized
的缘由。
可是synchronized
是比较影响性能的,虽然编译器提供了不少锁优化技术,可是也不建议过分使用。
在读完本文以后,相信你应该了解了什么是Java内存模型、Java内存模型的做用以及Java中内存模型作了什么事情等。关于Java中这些和内存模型有关的关键字,但愿读者还能够继续深刻学习,而且本身写几个例子亲自体会一下。
能够参考《深刻理解Java虚拟机》和《Java并发编程的艺术》两本书。
有道无术,术可成;有术无道,止于道;欢迎关注【Java之道】公众号,一块儿以道御术,以术识道;