以前根据 Sun 的内存管理白皮书介绍了在 HotSpot JVM 分代算法中的几个垃圾收集器,本文将介绍 G1 垃圾收集器。算法
G1 的主要关注点在于达到可控的停顿时间,在这个基础上尽量提升吞吐量,这一点很是重要。数据结构
G1 被设计用来长期取代 CMS 收集器,和 CMS 相同的地方在于,它们都属于并发收集器,在大部分的收集阶段都不须要挂起应用程序。区别在于,G1 没有 CMS 的碎片化问题(或者说不那么严重),同时提供了更加可控的停顿时间。并发
若是你的应用使用了较大的堆(如 6GB 及以上)并且还要求有较低的垃圾收集停顿时间(如 0.5 秒),那么 G1 是你绝佳的选择,是时候放弃 CMS 了。spa
阅读建议:本文力求用简单的话介绍清楚 G1 收集器,可是并不会重复介绍每个细节,因此但愿读者了解其余几个收集器的工做过程,尤为是 CMS 收集器。线程
首先是内存划分上,以前介绍的分代收集器将整个堆分为年轻代、老年代和永久代,每一个代的空间是肯定的。设计
而 G1 将整个堆划分为一个个大小相等的小块(每一块称为一个 region),每一块的内存是连续的。和分代算法同样,G1 中每一个块也会充当 Eden、Survivor、Old 三种角色,可是它们不是固定的,这使得内存使用更加地灵活。
执行垃圾收集时,和 CMS 同样,G1 收集线程在标记阶段和应用程序线程并发执行,标记结束后,G1 也就知道哪些区块基本上是垃圾,存活对象极少,G1 会先从这些区块下手,由于从这些区块能很快释放获得很大的可用空间,这也是为何 G1 被取名为 Garbage-First 的缘由。
在 G1 中,目标停顿时间很是很是重要,用 -XX:MaxGCPauseMillis=200 指按期望的停顿时间。对象
G1 使用了停顿预测模型来知足用户指定的停顿时间目标,并基于目标来选择进行垃圾回收的区块数量。G1 采用增量回收的方式,每次回收一些区块,而不是整堆回收。图片
咱们要知道 G1 不是一个实时收集器,它会尽力知足咱们的停顿时间要求,但也不是绝对的,它基于以前垃圾收集的数据统计,估计出在用户指定的停顿时间内能收集多少个区块。内存
注意:G1 有和应用程序一块儿运行的并发阶段,也有 stop-the-world 的并行阶段。可是,Full GC 的时候仍是单线程运行的,因此咱们应该尽可能避免发生 Full GC,后面咱们也会介绍何时会触发 Full GC。工作流
G1 内存占用
注:这里不那么重要。
G1 比 ParallelOld 和 CMS 会须要更多的内存消耗,那是由于有部份内存消耗于簿记(accounting)上,如如下两个数据结构:
Remembered Sets:每一个区块都有一个 RSet,用于记录进入该区块的对象引用(如区块 A 中的对象引用了区块 B,区块 B 的 Rset 须要记录这个信息),它用于实现收集过程的并行化以及使得区块能进行独立收集。整体上 Remembered Sets 消耗的内存小于 5%。
Collection Sets:将要被回收的区块集合。GC 时,在这些区块中的对象会被复制到其余区块中,整体上 Collection Sets 消耗的内存小于 1%。
前面啰里啰嗦说了挺多的,惟一要记住的就是,G1 的设计目标就是尽力知足咱们的目标停顿时间上的要求。
本节介绍 G1 的收集过程,G1 收集器主要包括了如下 4 种操做:
一、年轻代收集
二、并发收集,和应用线程同时执行
三、混合式垃圾收集
*、必要时的 Full GC
接下来,咱们进行一一介绍。
首先,咱们来看下 G1 的堆结构:
年轻代中的垃圾收集流程(Young GC):
咱们能够看到,年轻代收集概念上和以前介绍的其余分代收集器大差不差的,可是它的年轻代会动态调整。
接下来是 Old GC 的流程(含 Young GC 阶段),其实把 Old GC 理解为并发周期是比较合理的,不要单纯地认为是清理老年代的区块,由于这一步和年轻代收集也是相关的。下面咱们介绍主要流程:
1.初始标记:stop-the-world,它伴随着一次普通的 Young GC 发生,而后对 Survivor 区(root region)进行标记,由于该区可能存在对老年代的引用。
由于 Young GC 是须要 stop-the-world 的,因此并发周期直接重用这个阶段,虽然会增长 CPU 开销,可是停顿时间只是增长了一小部分。
2.扫描根引用区:扫描 Survivor 到老年代的引用,该阶段必须在下一次 Young GC 发生前结束。
这个阶段不能发生年轻代收集,若是中途 Eden 区真的满了,也要等待这个阶段结束才能进行 Young GC。
3.并发标记:寻找整个堆的存活对象,该阶段能够被 Young GC 中断。
这个阶段是并发执行的,中间能够发生屡次 Young GC,Young GC 会中断标记过程
4.从新标记:stop-the-world,完成最后的存活对象标记。使用了比 CMS 收集器更加高效的 snapshot-at-the-beginning (SATB) 算法。
Oracle 的资料显示,这个阶段会回收彻底空闲的区块
5.清理:清理阶段真正回收的内存不多。
到这里,G1 的一个并发周期就算结束了,其实就是主要完成了垃圾定位的工做,定位出了哪些分区是垃圾最多的。
并发周期结束后是混合垃圾回收周期,不只进行年轻代垃圾收集,并且回收以前标记出来的老年代的垃圾最多的部分区块。
混合垃圾回收周期会持续进行,直到几乎全部的被标记出来的分区(垃圾占比大的分区)都获得回收,而后恢复到常规的年轻代垃圾收集,最终再次启动并发周期。
到这里咱们已经说了年轻代收集、并发周期、混合回收周期了,你们要熟悉这几个阶段的工做。
下面咱们来介绍特殊状况,那就是会致使 Full GC 的状况,也是咱们须要极力避免的:
1.concurrent mode failure:并发模式失败,CMS 收集器也有一样的概念。G1 并发标记期间,若是在标记结束前,老年代被填满,G1 会放弃标记。
这个时候说明堆须要增长了,或者须要调整并发周期,如增长并发标记的线程数量,让并发标记尽快结束或者就是更早地进行并发周期,默认是整堆内存的 45% 被占用就开始进行并发周期。
2.晋升失败:并发周期结束后,是混合垃圾回收周期,伴随着年轻代垃圾收集,进行清理老年代空间,若是这个时候清理的速度小于消耗的速度,致使老年代不够用,那么会发生晋升失败。
说明混合垃圾回收须要更迅速完成垃圾收集,也就是说在混合回收阶段,每次年轻代的收集应该处理更多的老年代已标记区块。
3.疏散失败:年轻代垃圾收集的时候,若是 Survivor 和 Old 区没有足够的空间容纳全部的存活对象。这种状况确定是很是致命的,由于基本上已经没有多少空间能够用了,这个时候会触发 Full GC 也是很合理的。
最简单的就是增长堆大小
4.大对象分配失败,咱们应该尽量地不建立大对象,尤为是大于一个区块大小的那种对象。
看完上面的 Young GC 和 Old GC 等,不少读者可能仍是很懵的,这里说几句不严谨的白话文帮助读者进行理解:
首先,最好不要把上面的 Old GC 当作是一次 GC 来看,而应该当作并发标记周期来理解,虽然它确实会释放出一些内存。
并发标记结束后,G1 也就知道了哪些区块是最适合被回收的,那些彻底空闲的区块会在这这个阶段被回收。若是这个阶段释放了足够的内存出来,其实也就能够认为结束了一次 GC。
咱们假设并发标记结束了,那么下次 GC 的时候,仍是会先回收年轻代,若是从年轻代中获得了足够的内存,那么结束;过了几回后,年轻代垃圾收集不能知足须要了,那么就须要利用以前并发标记的结果,选择一些活跃度最低的老年代区块进行回收。直到最后,老年代会进入下一个并发周期。
那么何时会启动并发标记周期呢?这个是经过参数控制的,下面立刻要介绍这个参数了,此参数默认值是 45,也就是说当堆空间使用了 45% 后,G1 就会进入并发标记周期。
G1 调优的目标是尽可能避免出现 Full GC,其实就是给老年代足够的空间,或相对更多的空间。
有如下几点咱们能够进行调整的方向:
增长堆大小,或调整老年代和年轻代的比例,这个很好理解
增长并发周期的线程数量,其实就是为了加快并发周期快点结束
让并发周期尽早开始,这个是经过设置堆使用占比来调整的(默认 45%)
在混合垃圾回收周期中回收更多的老年代区块
G1 的很重要的目标是达到可控的停顿时间,因此不少的行为都以这个目标为出发点开展的。
咱们经过设置 -XX:MaxGCPauseMillis=N 来指定停顿时间(单位 ms,默认 200ms),若是没有达到这个目标,G1 会经过各类方式来补救:调全年轻代和老年代的比例,调整堆大小,调整晋升的年龄阈值,调整混合垃圾回收周期中处理的老年代的区块数量等等。
固然了,调整每一个参数知足了一个条件的同时每每也会引入另外一个问题,好比为了下降停顿时间,咱们能够减少年轻代的大小,但是这样的话就会增长年轻代垃圾收集的频率。若是咱们减小混合垃圾回收周期处理的老年代区块数量,虽然能够更容易知足停顿时间要求,但是这样就会增长 Full GC 的风险等等。
下面介绍最经常使用也是最基础的一些参数的设置,涉及到更高级的调优参数设置,请读者自行参阅其余资料。
参数介绍:
-XX:+UseG1GC 使用 G1 收集器
-XX:MaxGCPauseMillis=200 指定目标停顿时间,默认值 200 毫秒。
在设置 -XX:MaxGCPauseMillis 值的时候,不要指定为平均时间,而应该指定为知足 90% 的停顿在这个时间以内。记住,停顿时间目标是咱们的目标,不是每次都必定能知足的。
-XX:InitiatingHeapOccupancyPercent=45 整堆使用达到这个比例后,触发并发 GC 周期,默认 45%。
若是要下降晋升失败的话,一般能够调整这个数值,使得并发周期提早进行
-XX:NewRatio=n
老年代/年轻代,默认值 2,即 1/3 的年轻代,2/3 的老年代老年代/年轻代,默认值 2,即 1/3 的年轻代,2/3 的老年代。不要设置年轻代为固定大小,不然:G1 再也不须要知足咱们的停顿时间目标,不能再按需扩容或缩容年轻代大小
-XX:SurvivorRatio=n
Eden/Survivor,默认值 8,这个和其余分代收集器是同样的
-XX:MaxTenuringThreshold =n
从年轻代晋升到老年代的年龄阈值,也是和其余分代收集器同样的
-XX:ParallelGCThreads=n
并行收集时候的垃圾收集线程数
-XX:ConcGCThreads=n
并发标记阶段的垃圾收集线程数,增长这个值可让并发标记更快完成,若是没有指定这个值,JVM 会经过如下公式计算获得ConcGCThreads=(ParallelGCThreads + 2) / 4^3
-XX:G1ReservePercent=n
堆内存的预留空间百分比,默认 10,用于下降晋升失败的风险,即默认地会将 10% 的堆内存预留下来。
-XX:G1HeapRegionSize=n
每个 region 的大小,默认值为根据堆大小计算出来,取值 1MB~32MB,这个咱们一般指定整堆大小就行了。