认真分析mmap:是什么 为何 怎么用

mmap基础概念

mmap是一种内存映射文件的方法,即将一个文件或者其它对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系。实现这样的映射关系后,进程就能够采用指针的方式读写操做这一段内存,而系统会自动回写脏页面到对应的文件磁盘上,即完成了对文件的操做而没必要再调用read,write等系统调用函数。相反,内核空间对这段区域的修改也直接反映用户空间,从而能够实现不一样进程间的文件共享。以下图所示:html

          

由上图能够看出,进程的虚拟地址空间,由多个虚拟内存区域构成。虚拟内存区域是进程的虚拟地址空间中的一个同质区间,即具备一样特性的连续地址范围。上图中所示的text数据段(代码段)、初始数据段、BSS数据段、堆、栈和内存映射,都是一个独立的虚拟内存区域。而为内存映射服务的地址空间处在堆栈之间的空余部分。node

linux内核使用vm_area_struct结构来表示一个独立的虚拟内存区域,因为每一个不一样质的虚拟内存区域功能和内部机制都不一样,所以一个进程使用多个vm_area_struct结构来分别表示不一样类型的虚拟内存区域。各个vm_area_struct结构使用链表或者树形结构连接,方便进程快速访问,以下图所示:linux

         

vm_area_struct结构中包含区域起始和终止地址以及其余相关信息,同时也包含一个vm_ops指针,其内部可引出全部针对这个区域可使用的系统调用函数。这样,进程对某一虚拟内存区域的任何操做须要用要的信息,均可以从vm_area_struct中得到。mmap函数就是要建立一个新的vm_area_struct结构,并将其与文件的物理磁盘地址相连。具体步骤请看下一节。缓存

 

mmap内存映射原理

mmap内存映射的实现过程,总的来讲能够分为三个阶段:ide

(一)进程启动映射过程,并在虚拟地址空间中为映射建立虚拟映射区域函数

一、进程在用户空间调用库函数mmap,原型:void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);大数据

二、在当前进程的虚拟地址空间中,寻找一段空闲的知足要求的连续的虚拟地址spa

三、为此虚拟区分配一个vm_area_struct结构,接着对这个结构的各个域进行了初始化3d

四、将新建的虚拟区结构(vm_area_struct)插入进程的虚拟地址区域链表或树中指针

 

(二)调用内核空间的系统调用函数mmap(不一样于用户空间函数),实现文件物理地址和进程虚拟地址的一一映射关系

五、为映射分配了新的虚拟地址区域后,经过待映射的文件指针,在文件描述符表中找到对应的文件描述符,经过文件描述符,连接到内核“已打开文件集”中该文件的文件结构体(struct file),每一个文件结构体维护着和这个已打开文件相关各项信息。

六、经过该文件的文件结构体,连接到file_operations模块,调用内核函数mmap,其原型为:int mmap(struct file *filp, struct vm_area_struct *vma),不一样于用户空间库函数。

七、内核mmap函数经过虚拟文件系统inode模块定位到文件磁盘物理地址。

八、经过remap_pfn_range函数创建页表,即实现了文件地址和虚拟地址区域的映射关系。此时,这片虚拟地址并无任何数据关联到主存中。

 

(三)进程发起对这片映射空间的访问,引起缺页异常,实现文件内容到物理内存(主存)的拷贝

注:前两个阶段仅在于建立虚拟区间并完成地址映射,可是并无将任何文件数据的拷贝至主存。真正的文件读取是当进程发起读或写操做时。

九、进程的读或写操做访问虚拟地址空间这一段映射地址,经过查询页表,发现这一段地址并不在物理页面上。由于目前只创建了地址映射,真正的硬盘数据尚未拷贝到内存中,所以引起缺页异常。

十、缺页异常进行一系列判断,肯定无非法操做后,内核发起请求调页过程。

十一、调页过程先在交换缓存空间(swap cache)中寻找须要访问的内存页,若是没有则调用nopage函数把所缺的页从磁盘装入到主存中。

十二、以后进程便可对这片主存进行读或者写的操做,若是写操做改变了其内容,必定时间后系统会自动回写脏页面到对应磁盘地址,也即完成了写入到文件的过程。

注:修改过的脏页面并不会当即更新回文件中,而是有一段时间的延迟,能够调用msync()来强制同步, 这样所写的内容就能当即保存到文件里了。

 

mmap和常规文件操做的区别

对linux文件系统不了解的朋友,请参阅我以前写的博文《从内核文件系统看文件读写过程》,咱们首先简单的回顾一下常规文件系统操做(调用read/fread等类函数)中,函数的调用过程:

一、进程发起读文件请求。

二、内核经过查找进程文件符表,定位到内核已打开文件集上的文件信息,从而找到此文件的inode。

三、inode在address_space上查找要请求的文件页是否已经缓存在页缓存中。若是存在,则直接返回这片文件页的内容。

四、若是不存在,则经过inode定位到文件磁盘地址,将数据从磁盘复制到页缓存。以后再次发起读页面过程,进而将页缓存中的数据发给用户进程。

总结来讲,常规文件操做为了提升读写效率和保护磁盘,使用了页缓存机制。这样形成读文件时须要先将文件页从磁盘拷贝到页缓存中,因为页缓存处在内核空间,不能被用户进程直接寻址,因此还须要将页缓存中数据页再次拷贝到内存对应的用户空间中。这样,经过了两次数据拷贝过程,才能完成进程对文件内容的获取任务。写操做也是同样,待写入的buffer在内核空间不能直接访问,必需要先拷贝至内核空间对应的主存,再写回磁盘中(延迟写回),也是须要两次数据拷贝。

而使用mmap操做文件中,建立新的虚拟内存区域和创建文件磁盘地址和虚拟内存区域映射这两步,没有任何文件拷贝操做。而以后访问数据时发现内存中并没有数据而发起的缺页异常过程,能够经过已经创建好的映射关系,只使用一次数据拷贝,就从磁盘中将数据传入内存的用户空间中,供进程使用。

总而言之,常规文件操做须要从磁盘到页缓存再到用户主存的两次数据拷贝。而mmap操控文件,只须要从磁盘到用户主存的一次数据拷贝过程。说白了,mmap的关键点是实现了用户空间和内核空间的数据直接交互而省去了空间不一样数据不通的繁琐过程。所以mmap效率更高。

 

mmap优势总结

由上文讨论可知,mmap优势共有一下几点:

一、对文件的读取操做跨过了页缓存,减小了数据的拷贝次数,用内存读写取代I/O读写,提升了文件读取效率。

二、实现了用户空间和内核空间的高效交互方式。两空间的各自修改操做能够直接反映在映射的区域内,从而被对方空间及时捕捉。

三、提供进程间共享内存及相互通讯的方式。无论是父子进程仍是无亲缘关系的进程,均可以将自身用户空间映射到同一个文件或匿名映射到同一片区域。从而经过各自对映射区域的改动,达到进程间通讯和进程间共享的目的。

     同时,若是进程A和进程B都映射了区域C,当A第一次读取C时经过缺页从磁盘复制文件页到内存中;但当B再读C的相同页面时,虽然也会产生缺页异常,可是再也不须要从磁盘中复制文件过来,而可直接使用已经保存在内存中的文件数据。

四、可用于实现高效的大规模数据传输。内存空间不足,是制约大数据操做的一个方面,解决方案每每是借助硬盘空间协助操做,补充内存的不足。可是进一步会形成大量的文件I/O操做,极大影响效率。这个问题能够经过mmap映射很好的解决。换句话说,但凡是须要用磁盘空间代替内存的时候,mmap均可以发挥其功效。

 

mmap相关函数

函数原型

void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);

返回说明

成功执行时,mmap()返回被映射区的指针。失败时,mmap()返回MAP_FAILED[其值为(void *)-1], error被设为如下的某个值:

 1 EACCES:访问出错
 2 EAGAIN:文件已被锁定,或者太多的内存已被锁定
 3 EBADF:fd不是有效的文件描述词
 4 EINVAL:一个或者多个参数无效
 5 ENFILE:已达到系统对打开文件的限制
 6 ENODEV:指定文件所在的文件系统不支持内存映射
 7 ENOMEM:内存不足,或者进程已超出最大内存映射数量
 8 EPERM:权能不足,操做不容许
 9 ETXTBSY:已写的方式打开文件,同时指定MAP_DENYWRITE标志
10 SIGSEGV:试着向只读区写入
11 SIGBUS:试着访问不属于进程的内存区
返回错误类型

参数

start:映射区的开始地址

length:映射区的长度

prot:指望的内存保护标志,不能与文件的打开模式冲突。是如下的某个值,能够经过or运算合理地组合在一块儿

1 PROT_EXEC :页内容能够被执行
2 PROT_READ :页内容能够被读取
3 PROT_WRITE :页能够被写入
4 PROT_NONE :页不可访问
prot

flags:指定映射对象的类型,映射选项和映射页是否能够共享。它的值能够是一个或者多个如下位的组合体

 1 MAP_FIXED //使用指定的映射起始地址,若是由start和len参数指定的内存区重叠于现存的映射空间,重叠部分将会被丢弃。若是指定的起始地址不可用,操做将会失败。而且起始地址必须落在页的边界上。
 2 MAP_SHARED //与其它全部映射这个对象的进程共享映射空间。对共享区的写入,至关于输出到文件。直到msync()或者munmap()被调用,文件实际上不会被更新。
 3 MAP_PRIVATE //创建一个写入时拷贝的私有映射。内存区域的写入不会影响到原文件。这个标志和以上标志是互斥的,只能使用其中一个。
 4 MAP_DENYWRITE //这个标志被忽略。
 5 MAP_EXECUTABLE //同上
 6 MAP_NORESERVE //不要为这个映射保留交换空间。当交换空间被保留,对映射区修改的可能会获得保证。当交换空间不被保留,同时内存不足,对映射区的修改会引发段违例信号。
 7 MAP_LOCKED //锁定映射区的页面,从而防止页面被交换出内存。
 8 MAP_GROWSDOWN //用于堆栈,告诉内核VM系统,映射区能够向下扩展。
 9 MAP_ANONYMOUS //匿名映射,映射区不与任何文件关联。
10 MAP_ANON //MAP_ANONYMOUS的别称,再也不被使用。
11 MAP_FILE //兼容标志,被忽略。
12 MAP_32BIT //将映射区放在进程地址空间的低2GB,MAP_FIXED指定时会被忽略。当前这个标志只在x86-64平台上获得支持。
13 MAP_POPULATE //为文件映射经过预读的方式准备好页表。随后对映射区的访问不会被页违例阻塞。
14 MAP_NONBLOCK //仅和MAP_POPULATE一块儿使用时才有意义。不执行预读,只为已存在于内存中的页面创建页表入口。
flag

fd:有效的文件描述词。若是MAP_ANONYMOUS被设定,为了兼容问题,其值应为-1

offset:被映射对象内容的起点

相关函数

int munmap( void * addr, size_t len ) 

成功执行时,munmap()返回0。失败时,munmap返回-1,error返回标志和mmap一致;

该调用在进程地址空间中解除一个映射关系,addr是调用mmap()时返回的地址,len是映射区的大小;

当映射关系解除后,对原来映射地址的访问将致使段错误发生。 

 

int msync( void *addr, size_t len, int flags )

通常说来,进程在映射空间的对共享内容的改变并不直接写回到磁盘文件中,每每在调用munmap()后才执行该操做。

能够经过调用msync()实现磁盘上文件内容与共享内存区的内容一致。

 

mmap使用细节

一、使用mmap须要注意的一个关键点是,mmap映射区域大小必须是物理页大小(page_size)的整倍数(32位系统中一般是4k字节)。缘由是,内存的最小粒度是页,而进程虚拟地址空间和内存的映射也是以页为单位。为了匹配内存的操做,mmap从磁盘到虚拟地址空间的映射也必须是页。

二、内核能够跟踪被内存映射的底层对象(文件)的大小,进程能够合法的访问在当前文件大小之内又在内存映射区之内的那些字节。也就是说,若是文件的大小一直在扩张,只要在映射区域范围内的数据,进程均可以合法获得,这和映射创建时文件的大小无关。具体情形参见“情形三”。

三、映射创建以后,即便文件关闭,映射依然存在。由于映射的是磁盘的地址,不是文件自己,和文件句柄无关。同时可用于进程间通讯的有效地址空间不彻底受限于被映射文件的大小,由于是按页映射。

 

在上面的知识前提下,咱们下面看看若是大小不是页的整倍数的具体状况:

情形一:一个文件的大小是5000字节,mmap函数从一个文件的起始位置开始,映射5000字节到虚拟内存中。

分析:由于单位物理页面的大小是4096字节,虽然被映射的文件只有5000字节,可是对应到进程虚拟地址区域的大小须要知足整页大小,所以mmap函数执行后,实际映射到虚拟内存区域8192个 字节,5000~8191的字节部分用零填充。映射后的对应关系以下图所示:

               

此时:

(1)读/写前5000个字节(0~4999),会返回操做文件内容。

(2)读字节5000~8191时,结果全为0。写5000~8191时,进程不会报错,可是所写的内容不会写入原文件中 。

(3)读/写8192之外的磁盘部分,会返回一个SIGSECV错误。

 

情形二:一个文件的大小是5000字节,mmap函数从一个文件的起始位置开始,映射15000字节到虚拟内存中,即映射大小超过了原始文件的大小。

分析:因为文件的大小是5000字节,和情形一同样,其对应的两个物理页。那么这两个物理页都是合法能够读写的,只是超出5000的部分不会体如今原文件中。因为程序要求映射15000字节,而文件只占两个物理页,所以8192字节~15000字节都不能读写,操做时会返回异常。以下图所示:

                 

此时:

(1)进程能够正常读/写被映射的前5000字节(0~4999),写操做的改动会在必定时间后反映在原文件中。

(2)对于5000~8191字节,进程能够进行读写过程,不会报错。可是内容在写入前均为0,另外,写入后不会反映在文件中。

(3)对于8192~14999字节,进程不能对其进行读写,会报SIGBUS错误。

(4)对于15000之外的字节,进程不能对其读写,会引起SIGSEGV错误。

 

情形三:一个文件初始大小为0,使用mmap操做映射了1000*4K的大小,即1000个物理页大约4M字节空间,mmap返回指针ptr。

分析:若是在映射创建之初,就对文件进行读写操做,因为文件大小为0,并无合法的物理页对应,如同情形二同样,会返回SIGBUS错误。

可是若是,每次操做ptr读写前,先增长文件的大小,那么ptr在文件大小内部的操做就是合法的。例如,文件扩充4096字节,ptr就能操做ptr ~ [ (char)ptr + 4095]的空间。只要文件扩充的范围在1000个物理页(映射范围)内,ptr均可以对应操做相同的大小。

这样,方便随时扩充文件空间,随时写入文件,不形成空间浪费。