原文连接:mp.weixin.qq.com/s/3gGbJaeuv…html
新老朋友很久不见,我是大彬,这篇文章准备了好久,不是在拖延,而是中间作了一些其余事情,耽搁了一些。git
这篇文章主要介绍Go内存分配和Go内存管理,会轻微涉及内存申请和释放,以及Go垃圾回收。github
从很是宏观的角度看,Go的内存管理就是下图这个样子,咱们今天主要关注其中标红的部分。web
友情提醒:数据库
文章有点长,建议先收藏,后阅读,绝对是学习内存管理的好资料。编程
本文基于go1.11.2,不一样版本Go的内存管理可能存在差异,好比1.9与1.11的mheap定义就是差异比较大的,后续看源码的时候,请注意你的go版本,但不管你用哪一个go版本,这都是一个优秀的资料,由于内存管理的思想和框架始终未变。数组
Go这门语言抛弃了C/C++中的开发者管理内存的方式:主动申请与主动释放,增长了逃逸分析和GC,将开发者从内存管理中释放出来,让开发者有更多的精力去关注软件设计,而不是底层的内存问题。这是Go语言成为高生产力语言的缘由之一。缓存
咱们不须要精通内存的管理,由于它确实很复杂,但掌握内存的管理,可让你写出更高质量的代码,另外,还能助你定位Bug。性能优化
这篇文章采用层层递进的方式,依次会介绍关于存储的基本知识,Go内存管理的“前辈”TCMalloc,而后是Go的内存管理和分配,最后是总结。这么作的目的是,但愿各位能经过全局的认识和思考,拥有更好的编码思惟和架构思惟。数据结构
最后,这不是一篇源码分析文章,由于Go源码分析的文章已经有不少了,这些源码文章可以帮助你去学习具体的工程实践和奇淫巧计了,文章的末尾会推荐一些优秀文章,若是你对内存感兴趣,建议每一篇都去看一下,挑出本身喜欢的,多花时间研究下。
这部分咱们简单回顾一下计算机存储体系、虚拟内存、栈和堆,以及堆内存的管理,这部份内容对理解和掌握Go内存管理比较重要,建议忘记或不熟悉的朋友不要跳过。
这幅图表达了计算机的存储体系,从上至下依次是:
从上至下,访问速度愈来愈慢,访问时间愈来愈长。
你有没有思考过下面2个简单的问题,若是没有不妨想一想:
CPU速度很快,但硬盘等持久存储很慢,若是CPU直接访问磁盘,磁盘能够拉低CPU的速度,机器总体性能就会低下,为了弥补这2个硬件之间的速率差别,因此在CPU和磁盘之间增长了比磁盘快不少的内存。
然而,CPU跟内存的速率也不是相同的,从上图能够看到,CPU的速率提升的很快(摩尔定律),然而内存速率增加的很慢,虽然CPU的速率如今增长的很慢了,可是内存的速率也没增长多少,速率差距很大,从1980年开始CPU和内存速率差距在不断拉大,为了弥补这2个硬件之间的速率差别,因此在CPU跟内存之间增长了比内存更快的Cache,Cache是内存数据的缓存,能够下降CPU访问内存的时间。
不要觉得有了Cache就万事大吉了,CPU的速率还在不断增大,Cache也在不断改变,从最初的1级,到后来的2级,到当代的3级Cache,(有兴趣看cache历史)。
三级Cache分别是L一、L二、L3,它们的速率是三个不一样的层级,L1速率最快,与CPU速率最接近,是RAM速率的100倍,L2速率就降到了RAM的25倍,L3的速率更靠近RAM的速率。
看到这了,你有没有Get到整个存储体系的分层设计?自顶向下,速率愈来愈低,访问时间愈来愈长,从磁盘到CPU寄存器,上一层均可以看作是下一层的缓存。
看了分层设计,咱们看一下内存,毕竟咱们是介绍内存管理的文章。
虚拟内存是当代操做系统必备的一项重要功能了,它向进程屏蔽了底层了RAM和磁盘,并向进程提供了远超物理内存大小的内存空间。咱们看一下虚拟内存的分层设计。
上图展现了某进程访问数据,当Cache没有命中的时候,访问虚拟内存获取数据的过程。
访问内存,实际访问的是虚拟内存,虚拟内存经过页表查看,当前要访问的虚拟内存地址,是否已经加载到了物理内存,若是已经在物理内存,则取物理内存数据,若是没有对应的物理内存,则从磁盘加载数据到物理内存,并把物理内存地址和虚拟内存地址更新到页表。
有没有Get到:物理内存就是磁盘存储缓存层。
另外,在没有虚拟内存的时代,物理内存对全部进程是共享的,多进程同时访问同一个物理内存存在并发访问问题。引入虚拟内存后,每一个进程都要各自的虚拟内存,内存的并发访问问题的粒度从多进程级别,能够下降到多线程级别。
咱们如今从虚拟内存,再进一层,看虚拟内存中的栈和堆,也就是进程对内存的管理。
上图展现了一个进程的虚拟内存划分,代码中使用的内存地址都是虚拟内存地址,而不是实际的物理内存地址。栈和堆只是虚拟内存上2块不一样功能的内存区域:
栈在高地址,从高地址向低地址增加。
堆在低地址,从低地址向高地址增加。
栈和堆相比有这么几个好处:
咱们再进一层,当咱们说内存管理的时候,主要是指堆内存的管理,由于栈的内存管理不须要程序去操心。这小节看下堆内存管理干的是啥,如上图所示主要是3部分:分配内存块,回收内存块和组织内存块。
在一个最简单的内存管理中,堆内存最初会是一个完整的大块,即未分配内存,当来申请的时候,就会从未分配内存,分割出一个小内存块(block),而后用链表把全部内存块链接起来。须要一些信息描述每一个内存块的基本信息,好比大小(size)、是否使用中(used)和下一个内存块的地址(next),内存块实际数据存储在data中。
一个内存块包含了3类信息,以下图所示,元数据、用户数据和对齐字段,内存对齐是为了提升访问效率。下图申请5Byte内存的时候,就须要进行内存对齐。
释放内存实质是把使用的内存块从链表中取出来,而后标记为未使用,当分配内存块的时候,能够从未使用内存块中有先查找大小相近的内存块,若是找不到,再从未分配的内存中分配内存。
上面这个简单的设计中还没考虑内存碎片的问题,由于随着内存不断的申请和释放,内存上会存在大量的碎片,下降内存的使用率。为了解决内存碎片,能够将2个连续的未使用的内存块合并,减小碎片。
以上就是内存管理的基本思路,关于基本的内存管理,想了解更多,能够阅读这篇文章《Writing a Memory Allocator》,本节的3张图片也是来自这片文章。
TCMalloc是Thread Cache Malloc的简称,是Go内存管理的起源,Go的内存管理是借鉴了TCMalloc,随着Go的迭代,Go的内存管理与TCMalloc不一致地方在不断扩大,但其主要思想、原理和概念都是和TCMalloc一致的,若是跳过TCMalloc直接去看Go的内存管理,也许你会似懂非懂。
掌握TCMalloc的理念,无需去关注过多的源码细节,就能够为掌握Go的内存管理打好基础,基础打好了,后面知识才扎实。
在Linux里,其实有很多的内存管理库,好比glibc的ptmalloc,FreeBSD的jemalloc,Google的tcmalloc等等,为什么会出现这么多的内存管理库?本质都是在多线程编程下,追求更高内存管理效率:更快的分配是主要目的。
那如何更快的分配内存?
咱们前面提到:
引入虚拟内存后,让内存的并发访问问题的粒度从多进程级别,下降到多线程级别。
这是更快分配内存的第一个层次。
同一进程的全部线程共享相同的内存空间,他们申请内存时须要加锁,若是不加锁就存在同一块内存被2个线程同时访问的问题。
TCMalloc的作法是什么呢?为每一个线程预分配一块缓存,线程申请小内存时,能够从缓存分配内存,这样有2个好处:
下面就简单介绍下TCMalloc,细致程度够咱们理解Go的内存管理便可。
声明:我没有研究过TCMalloc,如下介绍根据TCMalloc官方资料和其余博主资料总结而来,错误之处请朋友告知我。
结合上图,介绍TCMalloc的几个重要概念:
上文提到了小、中、大对象,Go内存管理中也有相似的概念,咱们瞄一眼TCMalloc的定义:
小对象的分配流程:ThreadCache -> CentralCache -> HeapPage,大部分时候,ThreadCache缓存都是足够的,不须要去访问CentralCache和HeapPage,无锁分配加无系统调用,分配效率是很是高的。
中对象分配流程:直接在PageHeap中选择适当的大小便可,128 Page的Span所保存的最大内存就是1MB。
大对象分配流程:从large span set选择合适数量的页面组成span,用来存储数据。
经过本节的介绍,你应当对TCMalloc主要思想有必定了解了,我建议再回顾一下上面的内容。
本节图片皆来自《TCMalloc解密》,图片版权归原做者全部。
本文对于TCMalloc的介绍并很少,重要的是3个快速分配内存的层次,若是想了解更多,可阅读下面文章。
前面铺垫了那么多,终于到了本文核心的地方。前面的铺垫不是不重要,相反它们很重要,Go语言内存管理源自前面的基础知识和内存管理思惟,若是你跳过了前面的内容,建议你回头看一看,它能够帮助你更好的掌握Go内存管理。
前文提到Go内存管理源自TCMalloc,但它比TCMalloc还多了2件东西:逃逸分析和垃圾回收,这是2项提升生产力的绝佳武器。
这一大章节,咱们先介绍Go内存管理和Go内存分配,最后涉及一点垃圾回收和内存释放。
前面计算机基础知识回顾,是一种自上而下,从宏观到微观的介绍方式,把目光引入到今天的主题。
Go内存管理的许多概念在TCMalloc中已经有了,含义是相同的,只是名字有一些变化。先给你们上一幅宏观的图,借助图一块儿来介绍。
与TCMalloc中的Page相同,x64下1个Page的大小是8KB。上图的最下方,1个浅蓝色的长方形表明1个Page。
与TCMalloc中的Span相同,Span是内存管理的基本单位,代码中为mspan
,一组连续的Page组成1个Span,因此上图一组连续的浅蓝色长方形表明的是一组Page组成的1个Span,另外,1个淡紫色长方形为1个Span。
mcache与TCMalloc中的ThreadCache相似,mcache保存的是各类大小的Span,并按Span class分类,小对象直接从mcache分配内存,它起到了缓存的做用,而且能够无锁访问。
但mcache与ThreadCache也有不一样点,TCMalloc中是每一个线程1个ThreadCache,Go中是每一个P拥有1个mcache,由于在Go程序中,当前最多有GOMAXPROCS个线程在运行,因此最多须要GOMAXPROCS个mcache就能够保证各线程对mcache的无锁访问,线程的运行又是与P绑定的,把mcache交给P刚恰好。
mcentral与TCMalloc中的CentralCache相似,是全部线程共享的缓存,须要加锁访问,它按Span class对Span分类,串联成链表,当mcache的某个级别Span的内存被分配光时,它会向mcentral申请1个当前级别的Span。
但mcentral与CentralCache也有不一样点,CentralCache是每一个级别的Span有1个链表,mcache是每一个级别的Span有2个链表,这和mcache申请内存有关,稍后咱们再解释。
mheap与TCMalloc中的PageHeap相似,它是堆内存的抽象,把从OS申请出的内存页组织成Span,并保存起来。当mcentral的Span不够用时会向mheap申请,mheap的Span不够用时会向OS申请,向OS的内存申请是按页来的,而后把申请来的内存页生成Span组织起来,一样也是须要加锁访问的。
但mheap与PageHeap也有不一样点:mheap把Span组织成了树结构,而不是链表,而且仍是2棵树,而后把Span分配到heapArena进行管理,它包含地址映射和span是否包含指针等位图,这样作的主要缘由是为了更高效的利用内存:分配、回收和再利用。
除了以上内存块组织概念,还有几个重要的大小概念,必定要拿出来说一下,不要忽视他们的重要性,他们是内存分配、组织和地址转换的基础。
size
,指申请内存的对象大小。class
,它是size的级别,至关于把size归类到必定大小的区间段,好比size[1,8]属于size class 1,size(8,16]属于size class 2。npage
,表明Page的数量,其实就是Span包含的页数,用来分配内存。在介绍这几个大小之间的换算前,咱们得先看下图这个表,这个表决定了映射关系。
最上面2行是我手动加的,前3列分别是size class,object size和span size,根据这3列作size、size class和num of page之间的转换。
另外,第4列num of objects表明是当前size class级别的Span能够保存多少对象数量,第5列tail waste是span%obj
计算的结果,由于span的大小并不必定是对象大小的整数倍。最后一列max waste表明最大浪费的内存百分比,计算方法在printComment
函数中,没搞清为什么这样计算。
仔细看一遍这个表,再向下看转换是如何实现的。
在Go内存大小转换那幅图中已经标记各大小之间的转换,分别是数组:class_to_size
,size_to_class*
和class_to_allocnpages
,这3个数组内容,就是跟上表的映射关系匹配的。好比class_to_size
,从上表看class 1对应的保存对象大小为8,因此class_to_size[1]=8
,span大小为8192Byte,即8KB,为1页,因此class_to_allocnpages[1]=1
。
为什么不使用函数计算各类转换,而是写成数组?
有1个很重要的缘由:空间换时间。你若是仔细观察了,上表中的转换,并不能经过简单的公式进行转换,好比size和size class的关系,并非正比的。这些数据是使用较复杂的公式计算出来的,公式在makesizeclass.go
中,这其中存在指数运算与for循环,形成每次大小转换的时间复杂度为O(N*2^N)。另外,对一个程序而言,内存的申请和管理操做是不少的,若是不能快速完成,就是很是的低效。把以上大小转换写死到数组里,作到了把大小转换的时间复杂度直接降到O(1)。
涉及的概念已经讲完了,咱们看下Go内存分配原理。
Go中的内存分类并不像TCMalloc那样分红小、中、大对象,可是它的小对象里又细分了一个Tiny对象,Tiny对象指大小在1Byte到16Byte之间而且不包含指针的对象。小对象和大对象只用大小划定,无其余区分。
小对象是在mcache中分配的,而大对象是直接从mheap分配的,从小对象的内存分配看起。
大小转换这一小节,咱们介绍了转换表,size class从1到66共66个,代码中_NumSizeClasses=67
表明了实际使用的size class数量,即67个,从0到67,size class 0实际并未使用到。
上文提到1个size class对应2个span class:
numSpanClasses = _NumSizeClasses * 2
复制代码
numSpanClasses
为span class的数量为134个,因此span class的下标是从0到133,因此上图中mcache标注了的span class是,span class 0
到span class 133
。每1个span class都指向1个span,也就是mcache最多有134个span。
寻找span的流程以下:
以分配一个不包含指针的,大小为24Byte的对象为例。
根据映射表:
// class bytes/obj bytes/span objects tail waste max waste
// 1 8 8192 1024 0 87.50%
// 2 16 8192 512 0 43.75%
// 3 32 8192 256 0 46.88%
// 4 48 8192 170 32 31.52%
复制代码
size class 3,它的对象大小范围是(16,32]Byte,24Byte恰好在此区间,因此此对象的size class为3。
Size class到span class的计算以下:
// noscan为true表明对象不包含指针
func makeSpanClass(sizeclass uint8, noscan bool) spanClass {
return spanClass(sizeclass<<1) | spanClass(bool2int(noscan))
}
复制代码
因此,对应的span class为:
span class = 3 << 1 | 1 = 7
复制代码
因此该对象须要的是span class 7指向的span。
Span能够按对象大小切成不少份,这些均可以从映射表上计算出来,以size class 3对应的span为例,span大小是8KB,每一个对象实际所占空间为32Byte,这个span就被分红了256块,能够根据span的起始地址计算出每一个对象块的内存地址。
随着内存的分配,span中的对象内存块,有些被占用,有些未被占用,好比上图,总体表明1个span,蓝色块表明已被占用内存,绿色块表明未被占用内存。
当分配内存时,只要快速找到第一个可用的绿色块,并计算出内存地址便可,若是须要还能够对内存块数据清零。
span内的全部内存块都被占用时,没有剩余空间继续分配对象,mcache会向mcentral申请1个span,mcache拿到span后继续分配对象。
mcentral和mcache同样,都是0~133这134个span class级别,但每一个级别都保存了2个span list,即2个span链表:
nonempty
:这个链表里的span,全部span都至少有1个空闲的对象空间。这些span是mcache释放span时加入到该链表的。empty
:这个链表里的span,全部的span都不肯定里面是否有空闲的对象空间。当一个span交给mcache的时候,就会加入到empty链表。这2个东西名称一直有点绕,建议直接把empty理解为没有对象空间就行了。
实际代码中每1个span class对应1个mcentral,图里把全部mcentral抽象成1个总体了。
mcache向mcentral要span时,mcentral会先从nonempty
搜索知足条件的span,若是每找到再从emtpy
搜索知足条件的span,而后把找到的span交给mcache。
mheap里保存了2棵二叉排序树,按span的page数量进行排序:
free
:free中保存的span是空闲而且非垃圾回收的span。scav
:scav中保存的是空闲而且已经垃圾回收的span。若是是垃圾回收致使的span释放,span会被加入到scav
,不然加入到free
,好比刚从OS申请的的内存也组成的Span。
mheap中还有arenas,有一组heapArena组成,每个heapArena都包含了连续的pagesPerArena
个span,这个主要是为mheap管理span和垃圾回收服务。
mheap自己是一个全局变量,它其中的数据,也都是从OS直接申请来的内存,并不在mheap所管理的那部份内存内。
mcentral向mcache提供span时,若是emtpy
里也没有符合条件的span,mcentral会向mheap申请span。
mcentral须要向mheap提供须要的内存页数和span class级别,而后它优先从free
中搜索可用的span,若是没有找到,会从scav
中搜索可用的span,若是尚未找到,它会向OS申请内存,再从新搜索2棵树,必然能找到span。若是找到的span比需求的span大,则把span进行分割成2个span,其中1个恰好是需求大小,把剩下的span再加入到free
中去,而后设置需求span的基本信息,而后交给mcentral。
当mheap没有足够的内存时,mheap会向OS申请内存,把申请的内存页保存到span,而后把span插入到free
树 。
在32位系统上,mheap还会预留一部分空间,当mheap没有空间时,先从预留空间申请,若是预留空间内存也没有了,才向OS申请。
大对象的分配比小对象省事多了,99%的流程与mcentral向mheap申请内存的相同,因此不重复介绍了,不一样的一点在于mheap会记录一点大对象的统计信息,见mheap.alloc_m()
。
若是只申请和分配内存,内存终将枯竭,Go使用垃圾回收收集再也不使用的span,调用mspan.scavenge()
把span释放给OS(并不是真释放,只是告诉OS这片内存的信息无用了,若是你须要的话,收回去好了),而后交给mheap,mheap对span进行span的合并,把合并后的span加入scav
树中,等待再分配内存时,由mheap进行内存再分配,Go垃圾回收也是一个很强的主题,计划后面单独写一篇文章介绍。
如今咱们关注一下,Go程序是怎么把内存释放给操做系统的?
释放内存的函数是sysUnused
,它会被mspan.scavenge()
调用:
// MAC下的实现
func sysUnused(v unsafe.Pointer, n uintptr) {
// MADV_FREE_REUSABLE is like MADV_FREE except it also propagates
// accounting information about the process to task_info.
madvise(v, n, _MADV_FREE_REUSABLE)
}
复制代码
注释说_MADV_FREE_REUSABLE
与MADV_FREE
的功能相似,它的功能是给内核提供一个建议:这个内存地址区间的内存已经再也不使用,能够回收。但内核是否回收,以及何时回收,这就是内核的事情了。若是内核真把这片内存回收了,当Go程序再使用这个地址时,内核会从新进行虚拟地址到物理地址的映射。因此在内存充足的状况下,内核也没有必要马上回收内存。
最后提一下栈内存。从一个宏观的角度看,内存管理不该当只有堆,也应当有栈。
每一个goroutine都有本身的栈,栈的初始大小是2KB,100万的goroutine会占用2G,但goroutine的栈会在2KB不够用时自动扩容,当扩容为4KB的时候,百万goroutine会占用4GB。
关于goroutine栈内存管理,有篇很好的文章,饿了么框架技术部的专栏文章:《聊一聊goroutine stack》,把里面的一段内容摘录下,你感觉下:
能够看到在rpc调用(grpc invoke)时,栈会发生扩容(runtime.morestack),也就意味着在读写routine内的任何rpc调用都会致使栈扩容, 占用的内存空间会扩大为原来的两倍,4kB的栈会变为8kB,100w的链接的内存占用会从8G扩大为16G(全双工,不考虑其余开销),这简直是噩梦。
另外,再推荐一篇曹大翻译的一篇汇编入门文章,里面也介绍了扩栈:第一章: Go 汇编入门 ,顺便入门一下汇编。
内存分配原理就再也不回顾了,强调2个重要的思想:
除了文章中已经推荐的文章,再推荐几篇值得读的文章:
在查阅资料时,多篇文章都提到了这本书《The Linux Programming Interface》,关于Thread Cache有兴趣去读一下本书第31章。