golang 垃圾回收 gc

在实际使用go语言的过程当中，碰到了一些看似奇怪的内存占用现象，因而决定对go语言的垃圾回收模型进行一些研究。本文对研究的结果进行一下总结。javascript

什么是垃圾回收？

曾几什么时候，内存管理是程序员开发应用的一大难题。传统的系统级编程语言（主要指C/C++）中，程序员必须对内存当心的进行管理操做，控制内存的申请及释放。稍有不慎，就可能产生内存泄露问题，这种问题不易发现而且难以定位，一直成为困扰开发者的噩梦。如何解决这个头疼的问题呢？过去通常采用两种办法：php

为了解决这个问题，后来开发出来的几乎全部新语言（java，python，php等等）都引入了语言层面的自动内存管理 – 也就是语言的使用者只用关注内存的申请而没必要关心内存的释放，内存释放由虚拟机（virtual machine）或运行时（runtime）来自动进行管理。而这种对再也不使用的内存资源进行自动回收的行为就被称为垃圾回收。html

常见的垃圾回收方法

引用计数（reference counting）

这是最简单的一种垃圾回收算法，和以前提到的智能指针殊途同归。对每一个对象维护一个引用计数，当引用该对象的对象被销毁或更新时被引用对象的引用计数自动减一，当被引用对象被建立或被赋值给其余对象时引用计数自动加一。当引用计数为0时则当即回收对象。java

这种方法的优势是实现简单，而且内存的回收很及时。这种算法在内存比较紧张和实时性比较高的系统中使用的比较普遍，如ios cocoa框架，php，python等。简单引用计数算法也有明显的缺点：python

标记-清除（mark and sweep）

该方法分为两步，标记从根变量开始迭代得遍历全部被引用的对象，对可以经过应用遍历访问到的对象都进行标记为“被引用”；标记完成后进行清除操做，对没有标记过的内存进行回收（回收同时可能伴有碎片整理操做）。这种方法解决了引用计数的不足，可是也有比较明显的问题：每次启动垃圾回收都会暂停当前全部的正常代码执行，回收是系统响应能力大大下降！固然后续也出现了不少mark&sweep算法的变种（如三色标记法）优化了这个问题。ios

分代收集（generation）

通过大量实际观察得知，在面向对象编程语言中，绝大多数对象的生命周期都很是短。分代收集的基本思想是，将堆划分为两个或多个称为代（generation）的空间。新建立的对象存放在称为新生代（young generation）中（通常来讲，新生代的大小会比老年代小不少），随着垃圾回收的重复执行，生命周期较长的对象会被提高（promotion）到老年代中。所以，新生代垃圾回收和老年代垃圾回收两种不一样的垃圾回收方式应运而生，分别用于对各自空间中的对象执行垃圾回收。新生代垃圾回收的速度很是快，比老年代快几个数量级，即便新生代垃圾回收的频率更高，执行效率也仍然比老年代垃圾回收强，这是由于大多数对象的生命周期都很短，根本无需提高到老年代。c++

GO的垃圾回收器

实践经验

团队在实践go语言时一样碰到最多和最棘手的问题也是内存问题（其中gc为主），这里把遇到的问题和经验总结下，欢迎你们一块儿交流探讨。程序员

go程序内存占用大的问题

这个问题在咱们对后台服务进行压力测试时发现，咱们模拟大量的用户请求访问后台服务，这时各服务模块能观察到明显的内存占用上升。可是当中止压测时，内存占用并未发生明显的降低。花了很长时间定位问题，使用gprof等各类方法，依然没有发现缘由。最后发现原来这时正常的…主要的缘由有两个，github

一是go的垃圾回收有个触发阈值，这个阈值会随着每次内存使用变大而逐渐增大（如初始阈值是10MB则下一次就是20MB，再下一次就成为了40MB…），若是长时间没有触发gc go会主动触发一次（2min）。高峰时内存使用量上去后，除非持续申请内存，靠阈值触发gc已经基本不可能，而是要等最多2min主动gc开始才能触发gc。

第二个缘由是go语言在向系统交还内存时只是告诉系统这些内存不须要使用了，能够回收；同时操做系统会采起“拖延症”策略，并非当即回收，而是等到系统内存紧张时才会开始回收这样该程序又从新申请内存时就能够得到极快的分配速度。

gc时间长的问题

对于对用户响应事件有要求的后端程序，golang gc时的stop the world兼职是噩梦。根据上文的介绍，1.5版本的go再完成上述改进后应该gc性能会提高很多，可是全部的垃圾回收型语言都不免在gc时面临性能降低，对此咱们对于应该尽可能避免频繁建立临时堆对象（如&abc{}, new, make等）以减小垃圾收集时的扫描时间，对于须要频繁使用的临时对象考虑直接经过数组缓存进行重用；不少人采用cgo的方法本身管理内存而绕开垃圾收集，这种方法除非无可奈何我的是不推荐的（容易形成不可预知的问题），固然无可奈何的状况下仍是能够考虑的，这招带来的效果仍是很明显的~

goroutine泄露的问题

咱们的一个服务须要处理不少长链接请求，实现时，对于每一个长链接请求各开了一个读取和写入协程，所有采用endless for loop不停地处理收发数据。当链接被远端关闭后，若是不对这两个协程作处理，他们依然会一直运行，而且占用的channel也不会被释放…这里就必须十分注意，在不使用协程后必定要把他依赖的channel close并经过再协程中判断channel是否关闭以保证其退出。

Golang-gc基本知识

这一部分主要介绍golang gc的一些入门的相关知识，因为gc内容涉及比较多，一点一点慢慢整理。

Golang GC的背景

golang是基于garbage collection的语言，这是它的设计原则。
做为一个有垃圾回收器的语言，gc与程序交互时候的效率会影响到整个程序的运行效率。
一般程序自己的内存管理会影响gc和程序之间的效率，甚至形成性能瓶颈。

Golang GC的相关问题

主要参的这个：

http://morsmachine.dk/machine-gc

是14年写的，估计那个时候的gc机制还比较simple，新版本的golang对gc的改动应该会比较大

还有那个go语言读书笔记中关于golang gc 的相关部分

关于内存泄露

“内存泄露”（Memory Leak）这个词看似本身很熟悉，可实际上却也从没有看过它的准确含义。

内存泄露，是从操做系统的角度上来阐述的，形象的比喻就是“操做系统可提供给全部进程的存储空间(虚拟内存空间)正在被某个进程榨干”，致使的缘由就是程序在运行的时候，会不断地动态开辟的存储空间，这些存储空间在在运行结束以后后并无被及时释放掉。应用程序在分配了某段内存以后，因为设计的错误，会致使程序失去了对该段内存的控制，形成了内存空间的浪费。

若是程序在内存空间内申请了一块内存，以后程序运行结束以后，没有把这块内存空间释放掉，并且对应的程序又没有很好的gc机制去对程序申请的空间进行回收，这样就会致使内存泄露。

从用户的角度来讲，内存泄露自己不会有什么危害，由于这不是对用户功能的影响，可是“内存泄露”若是进

对于C和C++这种没有Garbage Collection 的语言来说，咱们主要关注两种类型的内存泄漏：

堆内存泄漏（Heap leak）。对内存指的是程序运行中根据须要分配经过malloc,realloc new等从堆中分配的一块内存，再是完成后必须经过调用对应的 free或者delete 删掉。若是程序的设计的错误致使这部份内存没有被释放，那么此后这块内存将不会被使用，就会产生Heap Leak.
系统资源泄露（Resource Leak）.主要指程序使用系统分配的资源好比 Bitmap,handle ,SOCKET等没有使用相应的函数释放掉，致使系统资源的浪费，严重可致使系统效能下降，系统运行不稳定。

内存泄露涉及到的相关问题还有不少，这里暂不展开讨论。

常见的GC模式

具体的优缺点能够参考这个，这里只是进行大体介绍。

引用计数（reference counting）每一个对象维护一个引用计数器，当引用该对象的对象被销毁或者更新的时候，被引用对象的引用计数器自动减1，当被应用的对象被建立，或者赋值给其余对象时，引用+1，引用为0的时候回收，思路简单，可是频繁更新引用计数器下降性能，存在循环以引用（php，Python所使用的）
标记清除（mark and sweep）就是golang所使用的，从根变量来时遍历全部被引用对象，标记以后进行清除操做，对未标记对象进行回收，缺点：每次垃圾回收的时候都会暂停全部的正常运行的代码，系统的响应能力会大大下降，各类mark&swamp变种（三色标记法），缓解性能问题。
分代搜集（generation）jvm就使用的分代回收的思路。在面向对象编程语言中，绝大多数对象的生命周期都很是短。分代收集的基本思想是，将堆划分为两个或多个称为代（generation）的空间。新建立的对象存放在称为新生代（young generation）中（通常来讲，新生代的大小会比老年代小不少），随着垃圾回收的重复执行，生命周期较长的对象会被提高（promotion）到老年代中（这里用到了一个分类的思路，这个是也是科学思考的一个基本思路）。

所以，新生代垃圾回收和老年代垃圾回收两种不一样的垃圾回收方式应运而生（先分类，以后再对症下药），分别用于对各自空间中的对象执行垃圾回收。新生代垃圾回收的速度很是快，比老年代快几个数量级，即便新生代垃圾回收的频率更高，执行效率也仍然比老年代垃圾回收强，这是由于大多数对象的生命周期都很短，根本无需提高到老年代。

golang中的gc一般是如何工做的

golang中的gc基本上是标记清除的思路：

在内存堆中（因为有的时候管理内存页的时候要用到堆的数据结构，因此称为堆内存）存储着有一系列的对象，这些对象可能会与其余对象有关联（references between these objects） a tracing garbage collector 会在某一个时间点上中止本来正在运行的程序，以后它会扫描runtime已经知道的的object集合（already known set of objects），一般它们是存在于stack中的全局变量以及各类对象。gc会对这些对象进行标记，将这些对象的状态标记为可达，从中找出全部的，从当前的这些对象能够达到其余地方的对象的reference，而且将这些对象也标记为可达的对象，这个步骤被称为mark phase，即标记阶段，这一步的主要目的是用于获取这些对象的状态信息。

一旦将全部的这些对象都扫描完，gc就会获取到全部的没法reach的对象（状态为unreachable的对象），而且将它们回收，这一步称为sweep phase，便是清扫阶段。

gc仅仅搜集那些未被标记为可达（reachable）的对象。若是gc没有识别出一个reference，最后有可能会将一个仍然在使用的对象给回收掉，就引发了程序运行错误。

能够看到主要的三个步骤：扫描，回收，清扫。

感受比起其余的语言，golang中的垃圾回收模型仍是相对简单的。

gc中的问题

gc的引入能够说就是为了解决内存回收的问题。新开发的语言（java，python，php等等），在使用的时候，可使用户没必要关心内存对象的释放，只须要关心对象的申请便可，经过在runtime或者在vm中进行相关的操做，达到自动管理内存空间的效果，这种对再也不使用的内存资源进行自动回收的行为就被称为垃圾回收。

根据前面的表述，可否正常识别一个reference是gc可以正常工做的基础，所以第一个问题就是gc应该如何识别一个reference？

最大的问题：对于reference的识别比较难，machine code 很难知道，怎样才算是一个reference。若是错漏掉了一个reference，就会使得，本来没有准备好要被free掉的内存如今被错误地free掉，因此策略就是宁多勿少。

一种策略是把全部的memory空间都看作是有可能的references（指针值）。这种被称为保守型垃圾回收器（conservative garbage collector）。C 中的Boehm garbage collector就是这样工做的。就是说把内存中的普通变量也当作指针同样去处理，尽可能cover到全部的指针的状况，若是碰巧这个普通的变量值所指向的空间有其余的对象，那么这个对象是不会被回收的。而go语言实现是彻底知道对象的类型信息，在标记时只会遍历指针指向的对象，这样就避免了C实现时的堆内存浪费（解决约10-30%）。

三色标记

2014/6 1.3 引入并发清理（垃圾回收和用户逻辑并发执行？）

2015/8 1.5 引入三色标记法

关于并发清理的引入，参照的是这里在1.3版本中，go runtime分离了mark和sweep的操做，和之前同样，也是先暂停全部任务执行并启动mark（mark这部分仍是要把原程序停下来的），mark完成后就立刻就从新启动被暂停的任务了，而且让sweep任务和普通协程任务同样并行，和其余任务一块儿执行。若是运行在多核处理器上，go会试图将gc任务放到单独的核心上运行而尽可能不影响业务代码的执行，go team本身的说法是减小了50%-70%的暂停时间。

基本算法就是以前提到的清扫+回收，Golang gc优化的核心就是尽可能使得STW(Stop The World)的时间愈来愈短。

如何测量GC

以前说了那么多，那如何测量gc的之星效率，判断它究竟是否对程序的运行形成了影响呢？第一种方式是设置godebug的环境变量，具体能够参考这一篇，真的是讲的很好的文章：连接，好比运行GODEBUG=gctrace=1 ./myserver，若是要想对于输出结果了解，还须要对于gc的原理进行更进一步的深刻分析，这篇文章的好处在于，清晰的之处了golang的gc时间是由哪些因素决定的，所以也能够针对性的采起不一样的方式提高gc的时间：

根据以前的分析也能够知道，golang中的gc是使用标记清楚法，因此gc的总时间为：

Tgc = Tseq + Tmark + Tsweep(T表示time)

Tseq表示是中止用户的 goroutine 和作一些准备活动（一般很小）须要的时间
Tmark 是堆标记时间，标记发生在全部用户 goroutine 中止时，所以能够显著地影响处理的延迟
Tsweep 是堆清除时间，清除一般与正常的程序运行同时发生，因此对延迟来讲是不太关键的

以后粒度进一步细分，具体的概念仍是有些不太懂：

与Tmark相关的：1 垃圾回收过程当中，堆中活动对象的数量，2 带有指针的活动对象占据的内存总量 3 活动对象中的指针数量。
与Tsweep相关的：1 堆内存的总量 2 堆中的垃圾总量

如何进行gc调优（gopher大会 Danny）

硬性参数

涉及算法的问题，老是会有些参数。GOGC参数主要控制的是下一次gc开始的时候的内存使用量。

好比当前的程序使用了4M的对内存（这里说的是堆内存），便是说程序当前reachable的内存为4m，当程序占用的内存达到reachable*(1+GOGC/100)=8M的时候，gc就会被触发，开始进行相关的gc操做。

如何对GOGC的参数进行设置，要根据生产状况中的实际场景来定，好比GOGC参数提高，来减小GC的频率。

小tips

想要有深刻的insights，使用gdb时必不可少的了，这篇文章里面整理了一些gdb使用的入门技巧。

减小对象分配 所谓减小对象的分配，其实是尽可能作到，对象的重用。好比像以下的两个函数定义：

 
      func(r*Reader)Read()([]byte,error) func(r*Reader)Read(buf[]byte)(int,error)

第一个函数没有形参，每次调用的时候返回一个[]byte，第二个函数在每次调用的时候，形参是一个buf []byte 类型的对象，以后返回读入的byte的数目。

第一个函数在每次调用的时候都会分配一段空间，这会给gc形成额外的压力。第二个函数在每次迪调用的时候，会重用形参声明。

老生常谈 string与[]byte转化 在stirng与[]byte之间进行转换，会给gc形成压力经过gdb，能够先对比下二者的数据结构：

 
      type = struct []uint8 { uint8 *array; int len; int cap;}  type = struct string { uint8 *str; int len;}

二者发生转换的时候，底层数据结结构会进行复制，所以致使gc效率会变低。解决策略上，一种方式是一直使用[]byte，特别是在数据传输方面，[]byte中也包含着许多string会经常使用到的有效的操做。另外一种是使用更为底层的操做直接进行转化，避免复制行为的发生。能够参考微信“雨痕学堂”中性能优化的第一部分，主要是使用unsafe.Pointer直接进行转化。

对于unsafe的使用，感受能够单独整理一出一篇文章来了，先把相关资料列在这里 http://studygolang.com/articles/685 直观上，能够把unsafe.Pointer理解成c++中的void*，在golang中，至关因而各类类型的指针进行转化的桥梁。

关于uintptr的底层类型是int，它能够装下指针所指的地址的值。它能够和unsafe.Pointer进行相互转化，主要的区别是，uintptr能够参与指针运算，而unsafe.Pointer只能进行指针转化，不能进行指针运算。想要用golang进行指针运算，能够参考这个。具体指针运算的时候，要先转成uintptr的类型，才能进一步计算，好比偏移多少之类的。

少许使用+链接string 因为采用+来进行string的链接会生成新的对象，下降gc的效率，好的方式是经过append函数来进行。

可是还有一个弊端，好比参考以下代码：

 
      b := make([]int, 1024) b = append(b, 99) fmt.Println("len:", len(b), "cap:", cap(b))

在使用了append操做以后，数组的空间由1024增加到了1312，因此若是能提早知道数组的长度的话，最好在最初分配空间的时候就作好空间规划操做，会增长一些代码管理的成本，同时也会下降gc的压力，提高代码的效率。

参考资料

https://talks.golang.org/2015/go-gc.pdf

https://www.zhihu.com/question/21615032

https://blog.golang.org/go15gc

golang gc 中文入门（总结比较全面包括golang gc 在不一样版本的比较赞） http://www.open-open.com/lib/view/open1435846881544.html(原文)

其余垃圾回收相关文章

这个介绍的gc较为系统： http://newhtml.net/v8-garbage-collection/

1.5版本的垃圾回收器 http://ruizeng.net/go-15-release-notes/

内存泄露参考 http://blog.csdn.net/na_he/article/details/7429171

Go1.5源码剖析 https://github.com/qyuhen/book

手动管理golang gc的一个例子（比较深层次的内容） http://my.oschina.net/lubia/blog/175154