垃圾回收算法与垃圾回收器

时间 2021-08-12

标签 java 面试算法缓存服务器多线程并发 ide 布局性能栏目 Java 繁體版

原文原文链接

Java与C++等语言最大的技术区别：自动化的垃圾回收机制（GC）java

为何要了解GC和内存分配策略面试

1、面试须要算法

2、GC对应用的性能是有影响的；缓存

3、写代码有好处服务器

栈：栈中的生命周期是跟随线程，因此通常不须要关注多线程

堆：堆中的对象是垃圾回收的重点并发

方法区/元空间：这一块也会发生垃圾回收，不过这块的效率比较低，通常不是咱们关注的重点ide

判断对象的存活

引用计数法

给对象添加一个引用计数器，当对象增长一个引用时计数器加 1，引用失效时计数器减 1。引用计数为 0 的对象可被回收。（Python在用，但主流虚拟机没有使用）布局

优势：快，方便，实现简单。性能

缺陷：对象相互引用时（A.instance=B同时B.instance=A），很难判断对象是否该回收。

可达性分析（Java中使用）

（面试时重要的知识点，牢记）

来断定对象是否存活的。这个算法的基本思路就是经过一系列的称为“GC Roots”的对象做为起始点，从这些节点开始向下搜索，搜索所走过的路径称为引用链（Reference Chain），当一个对象到GC Roots没有任何引用链相连时，则证实此对象是不可用的。

做为GC Roots的对象包括下面几种：

当前虚拟机栈中局部变量表中的引用的对象

当前本地方法栈中局部变量表中的引用的对象

方法区中类静态属性引用的对象

方法区中的常量引用的对象

请忘记 finalize

finalize能够完成对象的拯救，可是JVM不保证必定能执行，因此请忘记这个“坑”。

各类引用（Reference）

传统定义：Reference中存储的数据表明的是另外一块内存的起始地址。

强引用

通常的Object obj = new Object() ，就属于强引用。

（若是有GCroots的强引用）垃圾回收器绝对不会回收它，当内存不足时宁愿抛出 OOM 错误，使得程序异常中止

软引用 SoftReference

垃圾回收器在内存充足的时候不会回收它，而在内存不足时会回收它

软引用很是适合于建立缓存。当系统内存不足的时候，缓存中的内容是能够被释放的。

一些有用可是并不是必需，用软引用关联的对象，系统将要发生OOM以前，这些对象就会被回收。参见代码：

VM参数 -Xms10m -Xmx10m -XX:+PrintGC

运行结果

例如，一个程序用来处理用户提供的图片。若是将全部图片读入内存，这样虽然能够很快的打开图片，但内存空间使用巨大，一些使用较少的图片浪费内存空间，须要手动从内存中移除。若是每次打开图片都从磁盘文件中读取到内存再显示出来，虽然内存占用较少，但一些常用的图片每次打开都要访问磁盘，代价巨大。这个时候就能够用软引用构建缓存。

弱引用 WeakReference

垃圾回收器在扫描到该对象时，不管内存充足与否，都会回收该对象的内存。

一些有用（程度比软引用更低）可是并不是必需，用弱引用关联的对象，只能生存到下一次垃圾回收以前，GC发生时，无论内存够不够，都会被回收。

参看代码：

注意：软引用 SoftReference和弱引用 WeakReference，能够用在内存资源紧张的状况下以及建立不是很重要的数据缓存。当系统内存不足的时候，缓存中的内容是能够被释放的。

实际运用（WeakHashMap、ThreadLocal）

虚引用 PhantomReference

幽灵引用，最弱，被垃圾回收的时候收到一个通知

若是一个对象只具备虚引用，那么它和没有任何引用同样，任什么时候候均可能被回收。

虚引用主要用来跟踪对象被垃圾回收器回收的活动

GC（Garbage Collection）

案例Oom类

-Xms 堆区内存初始内存分配的大小

-Xmx 堆区内存可被分配的最大上限

-XX:+PrintGCDetails

打印GC详情

-XX:+HeapDumpOnOutOfMemoryError

当堆内存空间溢出时输出堆的内存快照

新生代大小配置参数的优先级：

中间 -Xmn 限定大小

-XX:SurvivorRatio

2个Survivor区和Eden区的比值

8 表示两个Survivor ： Eden = 2： 8 ，每一个Survivor占 1/10

能够修改成2

8 表示两个Survivor ： Eden = 2： 2 ，各占一半

GC overhead limit exceeded 超过98%的时间用来作GC而且回收了不到2%的堆内存时会抛出此异常

1.垃圾回收会占据资源

2.回收效率太低也会有限制

为何new出的对象不会被回收了，咱们来看看GC是如何判断对象的存活

Minor GC

特色: 发生在新生代上，发生的较频繁，执行速度较快

触发条件: Eden区空间不足\空间分配担保

Full GC

特色:主要发生在老年代上（新生代也会回收），较少发生，执行速度较慢

触发条件:

调用 System.gc()

老年代区域空间不足

空间分配担保失败

JDK 1.7 及之前的永久代(方法区)空间不足

CMS GC处理浮动垃圾时，若是新生代空间不足，则采用空间分配担保机制，若是老年代空间不足，则触发Full GC

垃圾回收算法

复制算法（Copying）

将可用内存按容量划分为大小相等的两块，每次只使用其中的一块。当这一块的内存用完了，就将还存活着的对象复制到另一块上面，而后再把已使用过的内存空间一次清理掉。这样使得每次都是对整个半区进行内存回收，内存分配时也就不用考虑内存碎片等复杂状况，只要按顺序分配内存便可，实现简单，运行高效。只是这种算法的代价是将内存缩小为了原来的一半。

注意：内存移动是必须实打实的移动（复制），不能使用指针玩。

专门研究代表，新生代中的对象98%是“朝生夕死”的，因此通常来讲回收占据10%的空间够用了，因此并不须要按照1:1的比例来划份内存空间，而是将内存分为一块较大的Eden空间和两块较小的Survivor空间，每次使用Eden和其中一块Survivor[1]。当回收时，将Eden和Survivor中还存活着的对象一次性地复制到另一块Survivor空间上，最后清理掉Eden和刚才用过的Survivor空间。

HotSpot虚拟机默认Eden和Survivor的大小比例是8:1，也就是每次新生代中可用内存空间为整个新生代容量的90%（80%+10%），只有10%的内存会被“浪费”。

标记-清除算法（Mark-Sweep）

过程:

首先标记全部须要回收的对象
统一回收被标记的对象

缺点：

1.效率问题，标记和清除效率都不高

2.标记清除以后会产生大量不连续的内存碎片，空间碎片太多可能会致使之后在程序运行过程当中须要分配较大对象时，没法找到足够的连续内存而不得不提早触发另外一次垃圾收集动做。

标记-整理算法（Mark-Compact）

首先标记出全部须要回收的对象，在标记完成后，后续步骤不是直接对可回收对象进行清理，而是让全部存活的对象都向一端移动，而后直接清理掉端边界之外的内存。

垃圾回收器

分代收集

根据各个年代的特色选取不一样的垃圾收集算法

新生代使用复制算法

老年代使用标记-整理或者标记-清除算法

jps -v显示当前使用的垃圾回收器

在新生代中，每次垃圾收集时都发现有大批对象死去，只有少许存活，那就选用复制算法，只须要付出少许存活对象的复制成本就能够完成收集。

而老年代中由于对象存活率高、没有额外空间对它进行分配担保，就必须使用“标记—清理”或者“标记—整理”算法来进行回收。

请记住下图的垃圾收集器和之间的连线关系。

并行：垃圾收集的多线程的同时进行。

并发：垃圾收集的多线程和应用的多线程同时进行。

注：吞吐量=运行用户代码时间/(运行用户代码时间+ 垃圾收集时间)

垃圾收集时间= 垃圾回收频率 * 单次垃圾回收时间

各类垃圾回收器

Serial/Serial Old

最古老的，单线程，独占式，成熟，适合单CPU 服务器

-XX:+UseSerialGC 新生代和老年代都用串行收集器

-XX:+UseParNewGC 新生代使用ParNew，老年代使用Serial Old

-XX:+UseParallelGC 新生代使用ParallerGC，老年代使用Serial Old

ParNew

和Serial基本没区别，惟一的区别：多线程，多CPU的，停顿时间比Serial少

-XX:+UseParNewGC 新生代使用ParNew，老年代使用Serial Old

除了性能缘由外，主要是由于除了 Serial 收集器，只有它能与 CMS 收集器配合工做。

Parallel Scavenge（ParallerGC）/Parallel Old

关注吞吐量的垃圾收集器，高吞吐量则能够高效率地利用CPU时间，尽快完成程序的运算任务，主要适合在后台运算而不须要太多交互的任务。

所谓吞吐量就是CPU用于运行用户代码的时间与CPU总消耗时间的比值，即吞吐量=运行用户代码时间/（运行用户代码时间+垃圾收集时间），虚拟机总共运行了100分钟，其中垃圾收集花掉1分钟，那吞吐量就是99%。

Concurrent Mark Sweep （CMS）

收集器是一种以获取最短回收停顿时间为目标的收集器。目前很大一部分的Java应用集中在互联网站或者B/S系统的服务端上，这类应用尤为重视服务的响应速度，但愿系统停顿时间最短，以给用户带来较好的体验。CMS收集器就很是符合这类应用的需求。

-XX:+UseConcMarkSweepGC ，通常新生代使用ParNew，老年代的用CMS

从名字（包含“Mark Sweep”）上就能够看出，CMS收集器是基于“标记—清除”算法实现的，它的运做过程相对于前面几种收集器来讲更复杂一些，

垃圾回收过程

整个过程分为4个步骤，包括：

l 初始标记：仅仅只是标记一下 GC Roots 能直接关联到的对象，速度很快，须要停顿（STW -Stop the world）。

l 并发标记：从GC Root 开始对堆中对象进行可达性分析，找到存活对象，它在整个回收过程当中耗时最长，不须要停顿。

l 从新标记：为了修正并发标记期间因用户程序继续运做而致使标记产生变更的那一部分对象的标记记录，须要停顿(STW)。这个阶段的停顿时间通常会比初始标记阶段稍长一些，但远比并发标记的时间短。

l 并发清除：不须要停顿。

优势：

因为整个过程当中耗时最长的并发标记和并发清除过程收集器线程均可以与用户线程一块儿工做，因此，从整体上来讲，CMS收集器的内存回收过程是与用户线程一块儿并发执行的。

缺点：

CPU资源敏感：由于并发阶段多线程占据CPU资源，若是CPU资源不足，效率会明显下降。

浮动垃圾：因为CMS并发清理阶段用户线程还在运行着，伴随程序运行天然就还会有新的垃圾不断产生，这一部分垃圾出如今标记过程以后，CMS没法在当次收集中处理掉它们，只好留待下一次GC时再清理掉。这一部分垃圾就称为“浮动垃圾”。

因为浮动垃圾的存在，所以须要预留出一部份内存，意味着 CMS 收集不能像其它收集器那样等待老年代快满的时候再回收。

在1.6的版本中老年代空间使用率阈值(92%)

若是预留的内存不够存放浮动垃圾，就会出现 Concurrent Mode Failure，这时虚拟机将临时启用 Serial Old 来替代 CMS。

会产生空间碎片：标记 - 清除算法会致使产生不连续的空间碎片

G1垃圾回收器

G1中重要的参数：

-XX:+UseG1GC 使用G1垃圾回收器

内部布局改变

G1 把堆划分红多个大小相等的独立区域（Region），新生代和老年代再也不物理隔离。

算法：标记—整理（humongous）和复制回收算法(survivor)。

GC模式

Young GC

选定全部年轻代里的Region。经过控制年轻代的region个数，即年轻代内存大小，来控制young GC的时间开销。（复制回收算法）

Mixed GC

选定全部年轻代里的Region，外加根据global concurrent marking统计得出收集收益高的若干老年代Region。在用户指定的开销目标范围内尽量选择收益高的老年代Region。

Mixed GC不是full GC，它只能回收部分老年代的Region。若是mixed GC实在没法跟上程序分配内存的速度，致使老年代填满没法继续进行Mixed GC，就会使用serial old GC（full GC）来收集整个GC heap。因此咱们能够知道，G1是不提供full GC的。

全局并发标记（global concurrent marking）

初始标记：仅仅只是标记一下GC Roots 能直接关联到的对象，而且修改TAMS（Nest Top Mark Start）的值，让下一阶段用户程序并发运行时，能在正确能够的Region中建立对象，此阶段须要停顿线程(STW)，但耗时很短。

并发标记：从GC Root 开始对堆中对象进行可达性分析，找到存活对象，此阶段耗时较长，但可与用户程序并发执行。

最终标记：为了修正在并发标记期间因用户程序继续运做而致使标记产生变更的那一部分标记记录，虚拟机将这段时间对象变化记录在线程的 Remembered Set Logs 里面，最终标记阶段须要把 Remembered Set Logs 的数据合并到 Remembered Set 中。这阶段须要停顿线程(STW)，可是可并行执行。

筛选回收：首先对各个 Region 中的回收价值和成本进行排序，根据用户所指望的 GC 停顿时间来制定回收计划。此阶段其实也能够作到与用户程序一块儿并发执行，可是由于只回收一部分 Region，时间是用户可控制的，并且停顿用户线程将大幅度提升收集效率。

特色

空间整合：不会产生内存碎片

算法：标记—整理（humongous）和复制回收算法(survivor)。

可预测的停顿：

G1收集器之因此能创建可预测的停顿时间模型，是由于它能够有计划地避免在整个Java堆中进行全区域的垃圾收集。G1跟踪各个Region里面的垃圾堆积的价值大小（回收所得到的空间大小以及回收所需时间的经验值），在后台维护一个优先列表，每次根据容许的收集时间，优先回收价值最大的Region（这也就是Garbage-First名称的来由）。这种使用Region划份内存空间以及有优先级的区域回收方式，保证了G1收集器在有限的时间内能够获取尽量高的收集效率。

G1把内存“化整为零”的思路，理解起来似

G1 GC主要的参数

参数	含义
-XX:G1HeapRegionSize=n	设置Region大小，并不是最终值
-XX:MaxGCPauseMillis	设置G1收集过程目标时间，默认值200ms，不是硬性条件
-XX:G1NewSizePercent	新生代最小值，默认值5%
-XX:G1MaxNewSizePercent	新生代最大值，默认值60%
-XX:ParallelGCThreads	STW期间，并行GC线程数
-XX:ConcGCThreads=n	并发标记阶段，并行执行的线程数
-XX:InitiatingHeapOccupancyPercent	设置触发标记周期的 Java 堆占用率阈值。默认值是45%。这里的java堆占比指的是non_young_capacity_bytes，包括old+humongous

垃圾回收器的重要参数（使用-XX:）

参数	描述
UseSerialGC	虚拟机运行在Client模式下的默认值，打开此开关后，使用 Serial+Serial Old 的收集器组合进行内存回收
UseParNewGC	打开此开关后，使用 ParNew + Serial Old 的收集器组合进行内存回收
UseConcMarkSweepGC	打开此开关后，使用 ParNew + CMS + Serial Old 的收集器组合进行内存回收。Serial Old 收集器将做为 CMS 收集器出现 Concurrent Mode Failure 失败后的后备收集器使用
UseParallelGC	虚拟机运行在 Server 模式下的默认值，打开此开关后，使用 Parallel Scavenge + Serial Old(PS MarkSweep) 的收集器组合进行内存回收
UseParallelOldGC	打开此开关后，使用 Parallel Scavenge + Parallel Old 的收集器组合进行内存回收
SurvivorRatio	新生代中 Eden 区域与 Survivor 区域的容量比值，默认为8，表明 Eden : Survivor = 8 : 1
PretenureSizeThreshold	直接晋升到老年代的对象大小，设置这个参数后，大于这个参数的对象将直接在老年代分配
MaxTenuringThreshold	晋升到老年代的对象年龄，每一个对象在坚持过一次 Minor GC 以后，年龄就增长1，当超过这个参数值时就进入老年代
UseAdaptiveSizePolicy	动态调整 Java 堆中各个区域的大小以及进入老年代的年龄
HandlePromotionFailure	是否容许分配担保失败，即老年代的剩余空间不足以应付新生代的整个 Eden 和 Survivor 区的全部对象都存活的极端状况
ParallelGCThreads	设置并行GC时进行内存回收的线程数
GCTimeRatio	GC 时间占总时间的比率，默认值为99，即容许 1% 的GC时间，仅在使用 Parallel Scavenge 收集器生效
MaxGCPauseMillis	设置 GC 的最大停顿时间，仅在使用 Parallel Scavenge 收集器时生效
CMSInitiatingOccupancyFraction	设置 CMS 收集器在老年代空间被使用多少后触发垃圾收集，默认值为 68%，仅在使用 CMS 收集器时生效
UseCMSCompactAtFullCollection	设置 CMS 收集器在完成垃圾收集后是否要进行一次内存碎片整理，仅在使用 CMS 收集器时生效
CMSFullGCsBeforeCompaction	设置 CMS 收集器在进行若干次垃圾收集后再启动一次内存碎片整理，仅在使用 CMS 收集器时生效

Stop The World现象

GC收集器和咱们GC调优的目标就是尽量的减小STW的时间和次数。