用go写了一个守护进程程序:用于检測redis的存活状态并将结果写到zookeeper中,部署到redis机器上。对于每个redis实例会有一个goroutine每隔固定时间去检測其状态,由主goroutine负责信号处理等。再接收到信号时kill其它的goroutine。程序执行了一段时间发现,有些redis实例的相应zookeeper的信息不更新。经过日志发现相应redis的goroutine挂掉了。golang
阅读源代码发现貌似是zk的第三方库抛出一个非预期的异常致使。redis
为了解决问题,对逻辑重构:由主goroutine每隔固定时间,对于每个redis实例启动一个goroutine去进行检測,避免出现非预期异常致使goroutine挂掉,从而状态信息不更新的状况。缓存
由于goroutine的建立开销很是低,并且golang官方推荐使用大量的goroutine来抗并发,因此这样的方式实现也很是合理。重构完。上线測试发现存在内存泄露。并发
首先对代码review,由于半年前写的,并且近期都没用golang,因此没有发现bug。负载均衡
接着,就想看下gc相关的信息。或许可能透漏些东西。网上查了golang gc相关,在runtime的doc中描写叙述了。经过环境变量设置GODEBUG='gctrace=1'可以让go的执行时把gc打印信息到stderr。curl
GODEBUG='gctrace=1' ./sentinel-agent >gc.log &gc.log的输出例如如下:
gc781(1): 1+2385+17891+0 us, 60 -> 60 MB, 21971 (3503906-3481935) objects, 13818/14/7369 sweeps, 0(0) handoff, 0(0) steal, 0/0/0 yields gc782(1): 1+1794+18570+1 us, 60 -> 60 MB, 21929 (3503906-3481977) objects, 13854/1/7315 sweeps, 0(0) handoff, 0(0) steal, 0/0/0 yields gc783(1): 1+1295+20499+0 us, 59 -> 59 MB, 21772 (3503906-3482134) objects, 13854/1/7326 sweeps, 0(0) handoff, 0(0) steal, 0/0/0 yieldsgc781:从程序启动開始,第781次gc
(1):參与gc的线程个数post
1+2385+17891+0:各自是1)stop-the-world的时间。即暂停所有goroutine。2)清扫标记对象的时间;3)标记垃圾对象的时间;4)等待线程结束的耗时。单位都是us。4者之和就是gc暂停的整体耗时url
60 -> 60 MB:gc后,堆上存活对象占用的内存。以及整个堆大小(包含垃圾对象)spa
21971 (3503906-3481935) objects:gc后,堆上的对象数量,gc前分配的对象以及本次释放的对象线程
13818/14/7369 sweeps:描写叙述对象清扫阶段。一共同拥有13818个memory span。当中14在后台被清扫。7369在stop-the-world期间被清扫
0(0) handoff。0(0) steal:描写叙述并行标记阶段的负载均衡特性。
当前在不一样线程间传送操做数和总传送操做数。以及当前steal操做数和总steal操做数
0/0/0 yields:描写叙述并行标记阶段的效率。在等待其它线程的过程当中。一共同拥有0次yields操作
通过观察gc的输出,发现当前堆上对象总数不断增多,没有下降的趋势。这说明存在对象的泄露,从而致使内存泄露。
依据golang官网profile指南,在代码中加入
import _ "net/http/pprof" func main() { go func() { http.ListenAndServe("localhost:6060", nil) }() }可以在执行时对程序进行profile,经过http訪问:
go tool pprof http://localhost:6060/debug/pprof/heap
使用--alloc_space可以显示所有分配的对象(包含垃圾对象)。
只是这两种方式都没有发现异常。
经过runtime.NumGoroutine()可以获取当前的goroutine的个数。经过给程序加入http server获取一些统计信息来了解程序的执行状态,这是Jeff Dean推崇的方法。经过加入下述代码来实时查看goroutine的个数
// goroutine stats and pprof go func() { http.HandleFunc("/goroutines", func(w http.ResponseWriter, r *http.Request) { num := strconv.FormatInt(int64(runtime.NumGoroutine()), 10) w.Write([]byte(num)) }); http.ListenAndServe("localhost:6060", nil) glog.Info("goroutine stats and pprof listen on 6060") }()经过命令:
curl localhost:6060/goroutines
经过上面的观察,发现存在goroutine泄露,即goroutine没有正常退出。由于每轮(每隔10秒执行一次)都会建立多个goroutine,假设不能正常退出,则会存在大量的goroutine。go的gc使用的是mark and sweep,会从全局变量、goroutine的栈为根集合扫描所有的存活对象。假设goroutine不退出,就会泄露大量内存。
在肯定是由于goroutine没有正常退出后,又一次review代码,发现了泄露的根本缘由。在重构前。在信号处理程序中,为了正常结束程序,对于每个goroutine都有一个channel,用于主goroutine等待所有goroutine正常结束后再退出。主goroutine中,信号处理程序用于等待所有goroutine的代码:
waiters = make([]chan int, Num) for _, w := range waiters { <- w }
执行检查逻辑的goroutine在结束后,会调用ag.w <- 1,用于向主goroutine发送消息。
重构后,由于每轮都会建立goroutine,由于用于主goroutine和检查逻辑的goroutine之间的channel的大小是1,因此所有建立的检查goroutine都堵塞在ag.w <- 1上。不能正常退出。最后,把channel逻辑去掉。就不存在goroutine泄露了。
- goroutine的管理很是重要,假设goroutine泄露,就会存在内存泄露
- 内嵌http server,用于查看程序执行状态
- 眼下。go的gc还比較脆弱,尽可能下降对象的建立。能缓存的就缓存。由于对象多了的话,扫描的时间也会加长