解析JVM之垃圾收集篇，超详细！

点击蓝色“程序员的时光 ”关注我，标注“星标”，及时阅读最新技术文章！

写在前面：

小伙伴儿们，你们好！上一次咱们了解了JVM基础知识——全面解析JVM，超详细！
今天来学习JVM垃圾回收相关内容，做为面试必问的知识点，来深刻了解一波！

思惟导图：

1，判断对象是否死亡

咱们在进行垃圾回收（Garbage Collection，简称GC）以前确定要先判断哪些是垃圾。

在堆中几乎放着全部的对象实例，对堆垃圾回收前的第一步就是要判断那些对象已经死亡（即不能再被任何途径使用的对象）。

1.1，引用计数算法

给对象添加一个引用计数器，每当有一个地方引用该对象时，计数器+1，当引用失效时，计数器-1，任什么时候候当计数器为0的时候，该对象再也不被引用。

引用计数器这个方法实现简单，断定效率也高。可是，当前主流的虚拟机都没有采用这个算法来管理内存，其中最主要的缘由是它很难解决对象之间互相循环引用的问题。

所谓对象之间互相循环引用，以下面代码所示：除了对象 objA 和 objB 相互引用着对方以外，这两个对象之间再无任何引用。可是它们由于互相引用对方，致使它们的引用计数器都不为 0，因而引用计数算法没法通知 GC 回收器回收他们。

     
 
     public class ReferenceCountingGc {
    public Object instance = null;
    public static final int _1MB = 1024*1024;
    public static void main(String[] args) {
        ReferenceCountingGc objA = new ReferenceCountingGc();
        ReferenceCountingGc objB = new ReferenceCountingGc();
        objA.instance = objB;
        objB.instance = objA;
        objA = null;
        objB = null;
    }
}

1.2，可达性分析算法

这个算法的基本思想就是经过一系列的称为 “GC Roots” 的对象做为起点，从这些节点开始向下搜索，节点所走过的路径称为引用链，当一个对象到 GC Roots 没有任何引用链相连的话，则证实此对象是不可用的。

在Java语言中，可做为GC Roots的对象包括下面几种：

虚拟机栈(栈帧中的本地变量表)中引用的对象
方法区中类静态属性引用的对象
方法区中常量引用的对象
本地方法栈(Native 方法)中引用的对象

2，再谈引用

不管是经过引用计数法判断对象引用数量，仍是经过可达性分析法判断对象的引用链是否可达，断定对象的存活都与“引用”有关。

JDK1.2 以前，Java 中引用的定义很传统：若是 reference 类型的数据存储的数值表明的是另外一块内存的起始地址，就称这块内存表明一个引用。JDK1.2 之后，Java 对引用的概念进行了扩充，将引用分为强引用、软引用、弱引用、虚引用四种（引用强度逐渐减弱）。

2.1，强引用

之前咱们使用的大部分引用实际上都是强引用，这是使用最广泛的引用。相似于“Object obj=new Object()”这类的引用，若是一个对象具备强引用，那就相似于必不可少的生活用品，垃圾回收器毫不会回收它。当内存空间不足，Java虚拟机宁愿抛出 OutOfMemoryError 错误，使程序异常终止，也不会靠随意回收具备强引用的对象来解决内存不足问题。

2.2，软引用

若是一个对象只具备软引用，那就相似于无关紧要的生活用品。若是内存空间足够，垃圾回收器就不会回收它，若是内存空间不足了，就会回收这些对象的内存。只要垃圾回收器没有回收它，该对象就能够被程序使用。软引用可用来实现内存敏感的高速缓存。

软引用能够和一个引用队列（ ReferenceQueue ）联合使用，若是软引用所引用的对象被垃圾回收，JAVA 虚拟机就会把这个软引用加入到与之关联的引用队列中。

2.3，弱引用

若是一个对象只具备弱引用，那就相似于无关紧要的生活用品。弱引用与软引用的区别在于：只具备弱引用的对象拥有更短暂的生命周期。在垃圾回收器线程扫描它所管辖的内存区域的过程当中，一旦发现了只具备弱引用的对象，无论当前内存空间足够与否，都会回收它的内存。不过，因为垃圾回收器是一个优先级很低的线程，所以不必定会很快发现那些只具备弱引用的对象。

弱引用能够和一个引用队列（ ReferenceQueue ）联合使用，若是弱引用所引用的对象被垃圾回收，Java 虚拟机就会把这个弱引用加入到与之关联的引用队列中。

2.4，虚引用

"虚引用"顾名思义，就是形同虚设，与其余几种引用都不一样，虚引用并不会决定对象的生命周期。若是一个对象仅持有虚引用，那么它就和没有任何引用同样，在任什么时候候均可能被垃圾回收。

虚引用主要用来跟踪对象被垃圾回收的活动。虚引用与软引用和弱引用的一个区别在于：虚引用必须和引用队列（ReferenceQueue）联合使用。当垃圾回收器准备回收一个对象时，若是发现它还有虚引用，就会在回收对象的内存以前，把这个虚引用加入到与之关联的引用队列中。程序能够经过判断引用队列中是否已经加入了虚引用，来了解被引用的对象是否将要被垃圾回收。程序若是发现某个虚引用已经被加入到引用队列，那么就能够在所引用的对象的内存被回收以前采起必要的行动。

特别注意，在世纪程序设计中通常不多使用弱引用与虚引用，使用软用的状况较多，这是由于软引用能够加速JVM对垃圾内存的回收速度，能够维护系统的运行安全，防止内存溢出（OutOfMemory）等问题的产生。

3，废弃常量以及无用类

3.1，如何判断一个常量是废弃常量？

运行时常量池主要回收的是废弃的常量。那么，咱们如何判断一个常量是废弃常量呢?

假如在常量池中存在字符串" abc " ,若是当前没有任何 String 对象引用该字符串常量的话，就说明常量" abc "就是废弃常量,若是这时发生内存回收的话并且有必要的话，" abc "就会被系统清理出常量池。

3.2，如何判断一个类是无用的类？

断定一个常量是不是“废弃常量”比较简单，而要断定一个类是不是“无用的类”的条件则相对苛刻许多。方法区主要回收无用的类，类须要同时知足下面3个条件才能算是 “无用的类” ：

该类全部的实例都已经被回收，也就是 Java 堆中不存在该类的任何实例。
加载该类的 ClassLoader 已经被回收。
该类对应的 java.lang.Class 对象没有在任何地方被引用，没法在任何地方经过反射访问该类的方法。

虚拟机能够对知足上述3个条件的无用类进行回收，这里说的仅仅是“能够”，而并非和对象同样不使用了就会必然被回收。

4，垃圾收集算法

4.1，标记--清除算法

该算法分为“标记”和“清除”阶段：首先标记出全部不须要回收的对象，在标记完成后统一回收掉全部没有被标记的对象。它是最基础的收集算法，后续的算法都是对其不足进行改进获得。这种垃圾收集算法会带来两个明显的问题：

效率问题：标记和清除两个过程的效率都不高；
空间问题：标记清除以后会产生大量不连续的内存碎片，空间碎片太多可能会致使之后在程序运行过程当中须要分配较大对象时，没法找到足够的连续内存而不得不提早触发另外一次垃圾收集动做。

4.2，复制算法

为了解决效率问题，“复制”收集算法出现了。它将可用内存分为大小相同的两块，每次使用其中的一块。当这一块的内存使用完后，就将还存活的对象复制到另外一块去，而后再把使用的空间一次清理掉。这样就使每次的内存回收都是对内存区间的一半进行回收。实现简单，运行高效。

4.3，标记--整理算法

根据老年代的特色提出的一种标记算法，标记过程仍然与“标记-清除”算法同样，但后续步骤不是直接对可回收对象回收，而是让全部存活的对象向一端移动，而后直接清理掉端边界之外的内存。

4.4，分代收集算法

当前虚拟机的垃圾收集都采用分代收集算法，这种算法没有什么新的思想，只是根据对象存活周期的不一样将内存分为几块。通常将 java 堆分为新生代和老年代，这样咱们就能够根据各个年代的特色选择合适的垃圾收集算法。

好比在新生代中，每次收集都会有大量对象死去，因此能够选择复制算法，只须要付出少许对象的复制成本就能够完成每次垃圾收集。而老年代的对象存活概率是比较高的，并且没有额外的空间对它进行分配担保，因此咱们必须选择“标记-清除”或“标记-整理”算法进行垃圾收集。

5，垃圾收集器

若是说收集算法是内存回收的方法论，那么垃圾收集器就是内存回收的具体实现。

虽然咱们对各个收集器进行比较，但并不是要挑选出一个最好的收集器。由于直到如今为止尚未最好的垃圾收集器出现，更加没有万能的垃圾收集器，咱们能作的就是根据具体应用场景选择适合本身的垃圾收集器。试想一下：若是有一种四海以内、任何场景下都适用的完美收集器存在，那么咱们的 HotSpot 虚拟机就不会实现那么多不一样的垃圾收集器了。

5.1，`Serial`收集器

Serial 收集器是最基本、历史最悠久的垃圾收集器了。从名字上看是串行的意思，这个收集器是一个单线程的新生代收集器。它的 “单线程” 的意义不只仅意味着它只会使用一条垃圾收集线程去完成垃圾收集工做，更重要的是它在进行垃圾收集工做的时候必须暂停其余全部的工做线程（ "Stop The World" ），直到它收集结束。

Serial 采起 “复制算法” 实现，若是是在单 CPU 环境下，Serial 收集器没有线程交互的开销，理论上是能够得到最高的单线程执行效率，STW 的时间也能够控制在几十到几百毫秒内，这个时间是彻底能够接受的。

与其余单线程收集器相比它的优势就是：它简单而高效（与其余收集器的单线程相比）。简单而高效 Serial 收集器因为没有线程交互的开销，天然能够得到很高的单线程收集效率。Serial 收集器对于运行在 Client 模式下的虚拟机来讲是个不错的选择。

5.2，`ParNew`收集器

ParNew 收集器其实就是 Serial 收集器的多线程版本，除了使用多线程进行垃圾收集外，其他行为（控制参数、收集算法、回收策略等等）和 Serial 收集器彻底同样。ParNew 收集器虽然有多线程优点，但在单 CPU 和多 CPU 环境下，效果并不必定会比 Serial 好，至少在单 CPU 环境下是确定不如的 Serial 的。因为线程交互开销的时间，效果并不如人意，多线程的好处在于更高效率地利用 CPU ，提升 CPU 的吞吐量，让 CPU 空闲的时间减小。

新生代采用复制算法，老年代采用标记-整理算法。

它是许多运行在 Server 模式下的虚拟机的首要选择，除了 Serial 收集器外，只有它能与 CMS 收集器（真正意义上的并发收集器，后面会介绍到）配合工做。

并行（Parallel） ：指多条垃圾收集线程并行工做，但此时用户线程仍然处于等待状态。
并发（Concurrent）：指用户线程与垃圾收集线程同时执行（但不必定是并行，可能会交替执行），用户程序在继续运行，而垃圾收集器运行在另外一个 CPU 上。

5.3，`Parallel Scavenge`收集器

Parallel Scavenge 收集器也是使用复制算法的多线程收集器，它看上去几乎和ParNew都同样。那么它有什么特别之处呢？

Parallel Scavenge 收集器关注点是吞吐量（高效率的利用 CPU）。CMS 等垃圾收集器的关注点更多的是用户线程的停顿时间（提升用户体验）。所谓吞吐量就是 CPU 中用于运行用户代码的时间与 CPU 总消耗时间的比值。 Parallel Scavenge 收集器提供了不少参数供用户找到最合适的停顿时间或最大吞吐量，若是对于收集器运做不太了解，手工优化存在困难的时候，使用Parallel Scavenge收集器配合自适应调节策略，把内存管理优化交给虚拟机去完成也是一个不错的选择。

新生代采用复制算法，老年代采用标记-整理算法。

这是 JDK1.8 默认收集器

使用 java -XX:+PrintCommandLineFlags -version 命令查看

     
 
     -XX:InitialHeapSize=197918400 -XX:MaxHeapSize=3166694400 -XX:+PrintCommandLineFlags -XX:+UseCompressedClassPointers -XX:+UseCompressedOops -XX:-UseLargePagesIndividualAllocation -XX:+UseParallelGC
java version "1.8.0_144"
Java(TM) SE Runtime Environment (build 1.8.0_144-b01)
Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode)

JDK1.8 默认使用的是 Parallel Scavenge + Parallel Old ，若是指定了 -XX:+UseParallelGC 参数，则默认指定了 -XX:+UseParallelOld GC ，可使用 -XX:-UseParallelOldGC 来禁用该功能。

5.4，`Serial Old`收集器

Serial 收集器的老年代版本，它一样是一个单线程收集器。它主要有两大用途：一种用途是在 JDK1.5 以及之前的版本中与 Parallel Scavenge 收集器搭配使用，另外一种用途是做为 CMS 收集器的后备方案。

5.5，`Parallel Old` 收集器

Parallel Scavenge 收集器的老年代版本。使用多线程和“标记-整理”算法。在注重吞吐量以及 CPU 资源的场合，均可以优先考虑 Parallel Scavenge 收集器和 Parallel Old 收集器。

5.6，`CMS` 收集器

CMS（Concurrent Mark Sweep）收集器是一种以获取最短回收停顿时间为目标的收集器。它很是符合在注重用户体验的应用上使用。

CMS（Concurrent Mark Sweep）收集器是 HotSpot 虚拟机第一款真正意义上的并发收集器，它第一次实现了让垃圾收集线程与用户线程（基本上）同时工做。

从名字中的Mark Sweep这两个词能够看出，CMS 收集器是一种 “标记-清除”算法实现的，它的运做过程相比于前面几种垃圾收集器来讲更加复杂一些。整个过程分为四个步骤：

初始标记： 暂停全部的其余线程，并记录下直接与 root 相连的对象，速度很快；
并发标记： 同时开启 GC 和用户线程，用一个闭包结构去记录可达对象。但在这个阶段结束，这个闭包结构并不能保证包含当前全部的可达对象。由于用户线程可能会不断的更新引用域，因此 GC 线程没法保证可达性分析的实时性。因此这个算法里会跟踪记录这些发生引用更新的地方。
从新标记： 从新标记阶段就是为了修正并发标记期间由于用户程序继续运行而致使标记产生变更的那一部分对象的标记记录，这个阶段的停顿时间通常会比初始标记阶段的时间稍长，远远比并发标记阶段时间短
并发清除： 开启用户线程，同时 GC 线程开始对未标记的区域作清扫。

两次STW，从它的名字就能够看出它是一款优秀的垃圾收集器，主要优势：并发收集、低停顿。可是它有下面三个明显的缺点：

对 CPU 资源敏感；
没法处理浮动垃圾；
它使用的回收算法-“标记-清除”算法会致使收集结束时会有大量空间碎片产生。

什么是浮动垃圾？CMS在并发清理阶段，用户线程还在运行，伴随着程序的运行天然也会产生新的垃圾，这一部分垃圾产生在标记过程以后，CMS没法再当次过程当中处理，因此只有等到下次gc时候在清理掉，这一部分垃圾就称做“浮动垃圾”。

5.7，`G1` 收集器

G1 (Garbage-First) 是一款面向服务器的垃圾收集器,主要针对配备多颗处理器及大容量内存的机器. 以极高几率知足 GC 停顿时间要求的同时,还具有高吞吐量性能特征。

被视为 JDK1.7 中 HotSpot 虚拟机的一个重要进化特征。它具有一下特色：

并行与并发：G1 能充分利用 CPU、多核环境下的硬件优点，使用多个 CPU（CPU 或者 CPU 核心）来缩短 Stop-The-World 停顿时间。部分其余收集器本来须要停顿 Java 线程执行的 GC 动做，G1 收集器仍然能够经过并发的方式让 java 程序继续执行。
分代收集：虽然 G1 能够不须要其余收集器配合就能独立管理整个 GC 堆，可是仍是保留了分代的概念。
空间整合：与 CMS 的“标记--清理”算法不一样，G1 从总体来看是基于“标记整理”算法实现的收集器；从局部上来看是基于“复制”算法实现的。
可预测的停顿：这是 G1 相对于 CMS 的另外一个大优点，下降停顿时间是 G1 和 CMS 共同的关注点，但 G1 除了追求低停顿外，还能创建可预测的停顿时间模型，能让使用者明确指定在一个长度为 M 毫秒的时间片断内。

G1 收集器在后台维护了一个优先列表，每次根据容许的收集时间，优先选择回收价值最大的 Region(这也就是它的名字 Garbage-First 的由来)。这种使用 Region 划份内存空间以及有优先级的区域回收方式，保证了 G1 收集器在有限时间内能够尽量高的收集效率（把内存化整为零）。

微信搜索公众号《程序员的时光》好了，今天就先分享到这里了，下期继续给你们带来JVM面试内容！更多干货、优质文章，欢迎关注个人原创技术公众号~

参考文献:
《深刻理解Java虚拟机(第2版).周志明》
https://xiaozhuanlan.com/topic/1847690325#section1java

本文分享自微信公众号 - 程序员的时光（gh_9211ec727426）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。java