mmapnode
功能描述: linux
mmap将一个文件或者其它对象映射进内存。文件被映射到多个页上,若是文件的大小不是全部页的大小之和,最后一个页不被使用的空间将会清零。munmap执行相反的操做,删除特定地址区域的对象映射。 数据结构
基于文件的映射,在mmap和munmap执行过程的任什么时候刻,被映射文件的st_atime可能被更新。若是st_atime字段在前述的状况下没有得 到更新,首次对映射区的第一个页索引时会更新该字段的值。用PROT_WRITE 和 MAP_SHARED标志创建起来的文件映射,其st_ctime 和 st_mtimeapp
在对映射区写入以后,但在msync()经过MS_SYNC 和 MS_ASYNC两个标志调用以前会被更新。函数
用法: spa
#include <sys/mman.h>命令行
void *mmap(void *start, size_t length, int prot, int flags,设计
int fd, off_t offset);指针
int munmap(void *start, size_t length); orm
参数:
start:映射区的开始地址。
length:映射区的长度。
prot:指望的内存保护标志,不能与文件的打开模式冲突。是如下的某个值,能够经过or运算合理地组合在一块儿
PROT_EXEC //页内容能够被执行
PROT_READ //页内容能够被读取
PROT_WRITE //页能够被写入
PROT_NONE //页不可访问
flags:指定映射对象的类型,映射选项和映射页是否能够共享。它的值能够是一个或者多个如下位的组合体
MAP_FIXED //使用指定的映射起始地址,若是由start和len参数指定的内存区重叠于现存的映射空间,重叠部分将会被丢弃。若是指定的起始地址不可用,操做将会失败。而且起始地址必须落在页的边界上。
MAP_SHARED //与其它全部映射这个对象的进程共享映射空间。对共享区的写入,至关于输出到文件。直到msync()或者munmap()被调用,文件实际上不会被更新。
MAP_PRIVATE //创建一个写入时拷贝的私有映射。内存区域的写入不会影响到原文件。这个标志和以上标志是互斥的,只能使用其中一个。
MAP_DENYWRITE //这个标志被忽略。
MAP_EXECUTABLE //同上
MAP_NORESERVE //不要为这个映射保留交换空间。当交换空间被保留,对映射区修改的可能会获得保证。当交换空间不被保留,同时内存不足,对映射区的修改会引发段违例信号。
MAP_LOCKED //锁定映射区的页面,从而防止页面被交换出内存。
MAP_GROWSDOWN //用于堆栈,告诉内核VM系统,映射区能够向下扩展。
MAP_ANONYMOUS //匿名映射,映射区不与任何文件关联。
MAP_ANON //MAP_ANONYMOUS的别称,再也不被使用。
MAP_FILE //兼容标志,被忽略。
MAP_32BIT //将映射区放在进程地址空间的低2GB,MAP_FIXED指定时会被忽略。当前这个标志只在x86-64平台上获得支持。
MAP_POPULATE //为文件映射经过预读的方式准备好页表。随后对映射区的访问不会被页违例阻塞。
MAP_NONBLOCK //仅和MAP_POPULATE一块儿使用时才有意义。不执行预读,只为已存在于内存中的页面创建页表入口。
fd:有效的文件描述词。若是MAP_ANONYMOUS被设定,为了兼容问题,其值应为-1。
offset:被映射对象内容的起点。
返回说明:
成功执行时,mmap()返回被映射区的指针,munmap()返回0。失败时,mmap()返回MAP_FAILED[其值为(void *)-1],munmap返回-1。errno被设为如下的某个值
EACCES:访问出错
EAGAIN:文件已被锁定,或者太多的内存已被锁定
EBADF:fd不是有效的文件描述词
EINVAL:一个或者多个参数无效
ENFILE:已达到系统对打开文件的限制
ENODEV:指定文件所在的文件系统不支持内存映射
ENOMEM:内存不足,或者进程已超出最大内存映射数量
EPERM:权能不足,操做不容许
ETXTBSY:已写的方式打开文件,同时指定MAP_DENYWRITE标志
SIGSEGV:试着向只读区写入
SIGBUS:试着访问不属于进程的内存区
共 享内存能够说是最有用的进程间通讯方式,也是最快的IPC形式。两个不一样进程A、B共享内存的意思是,同一块物理内存被映射到进程A、B各自的进程地址空 间。进程A能够即时看到进程B对共享内存中数据的更新,反之亦然。因为多个进程共享同一块内存区域,必然须要某种同步机制,互斥锁和信号量均可以。 采 用共享内存通讯的一个显而易见的好处是效率高,由于进程能够直接读写内存,而不须要任何数据的拷贝。对于像管道和消息队列等通讯方式,则须要在内核和用户 空间进行四次的数据拷贝,而共享内存则只拷贝两次数据[1]:一次从输入文件到共享内存区,另外一次从共享内存区到输出文件。实际上,进程之间在共享内存 时,并不老是读写少许数据后就解除映射,有新的通讯时,再从新创建共享内存区域。而是保持共享区域,直到通讯完毕为止,这样,数据内容一直保存在共享内存 中,并无写回文件。共享内存中的内容每每是在解除映射时才写回文件的。所以,采用共享内存的通讯方式效率是很是高的。 Linux的 2.2.x 内核支持多种共享内存方式,如mmap()系统调用,Posix共享内存,以及系统V共享内存。linux发行版本如Redhat 8.0支持mmap()系统调用及系统V共享内存,但还没实现Posix共享内存,本文将主要介绍mmap()系统调用及系统V共享内存API的原理及应 用。 1、内核怎样保证各个进程寻址到同一个共享内存区域的内存页面 一、 page cache及swap cache中页面的区分:一个被访问文件的物理页面都驻留在page cache或swap cache中,一个页面的全部信息由struct page来描述。struct page中有一个域为指针mapping ,它指向一个struct address_space类型结构。page cache或swap cache中的全部页面就是根据address_space结构以及一个偏移量来区分的。 二、文件与 address_space结构的对应:一个具体的文件在打开后,内核会在内存中为之创建一个struct inode结构,其中的i_mapping域指向一个address_space结构。这样,一个文件就对应一个address_space结构,一个 address_space与一个偏移量可以肯定一个page cache 或swap cache中的一个页面。所以,当要寻址某个数据时,很容易根据给定的文件及数据在文件内的偏移量而找到相应的页面。 三、进程调用mmap()时,只是在进程空间内新增了一块相应大小的缓冲区,并设置了相应的访问标识,但并无创建进程空间到物理页面的映射。所以,第一次访问该空间时,会引起一个缺页异常。 四、 对于共享内存映射状况,缺页异常处理程序首先在swap cache中寻找目标页(符合address_space以及偏移量的物理页),若是找到,则直接返回地址;若是没有找到,则判断该页是否在交换区 (swap area),若是在,则执行一个换入操做;若是上述两种状况都不知足,处理程序将分配新的物理页面,并把它插入到page cache中。进程最终将更新进程页表。 注:对于映射普通文件状况(非共享映射),缺页异常处理程序首先会在page cache中根据address_space以及数据偏移量寻找相应的页面。若是没有找到,则说明文件数据尚未读入内存,处理程序会从磁盘读入相应的页 面,并返回相应地址,同时,进程页表也会更新。 五、全部进程在映射同一个共享内存区域时,状况都同样,在创建线性地址与物理地址之间的映射以后,不论进程各自的返回地址如何,实际访问的必然是同一个共享内存区域对应的物理页面。 注:一个共享内存区域能够看做是特殊文件系统shm中的一个文件,shm的安装点在交换区上。 上面涉及到了一些数据结构,围绕数据结构理解问题会容易一些。 回页首 2、mmap()及其相关系统调用 mmap()系统调用使得进程之间经过映射同一个普通文件实现共享内存。普通文件被映射到进程地址空间后,进程能够向访问普通内存同样对文件进行访问,没必要再调用read(),write()等操做。 注: 实际上,mmap()系统调用并非彻底为了用于共享内存而设计的。它自己提供了不一样于通常对普通文件的访问方式,进程能够像读写内存同样对普通文件的操 做。而Posix或系统V的共享内存IPC则纯粹用于共享目的,固然mmap()实现共享内存也是其主要应用之一。 一、mmap()系统调用形式以下: void* mmap ( void * addr , size_t len , int prot , int flags , int fd , off_t offset ) 参 数fd为即将映射到进程空间的文件描述字,通常由open()返回,同时,fd能够指定为-1,此时须指定flags参数中的MAP_ANON,代表进行 的是匿名映射(不涉及具体的文件名,避免了文件的建立及打开,很显然只能用于具备亲缘关系的进程间通讯)。len是映射到调用进程地址空间的字节数,它从 被映射文件开头offset个字节开始算起。prot 参数指定共享内存的访问权限。可取以下几个值的或:PROT_READ(可读) , PROT_WRITE (可写), PROT_EXEC (可执行), PROT_NONE(不可访问)。flags由如下几个常值指定:MAP_SHARED , MAP_PRIVATE , MAP_FIXED,其中,MAP_SHARED , MAP_PRIVATE必选其一,而MAP_FIXED则不推荐使用。offset参数通常设为0,表示从文件头开始映射。参数addr指定文件应被映射 到进程空间的起始地址,通常被指定一个空指针,此时选择起始地址的任务留给内核来完成。函数的返回值为最后文件映射到进程空间的地址,进程可直接操做起始 地址为该值的有效地址。这里再也不详细介绍mmap()的参数,读者可参考mmap()手册页得到进一步的信息。 二、系统调用mmap()用于共享内存的两种方式: (1)使用普通文件提供的内存映射:适用于任何进程之间;此时,须要打开或建立一个文件,而后再调用mmap();典型调用代码以下: fd=open(name, flag, mode); if(fd<0) ... ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0); 经过mmap()实现共享内存的通讯方式有许多特色和要注意的地方,咱们将在范例中进行具体说明。 (2) 使用特殊文件提供匿名内存映射:适用于具备亲缘关系的进程之间;因为父子进程特殊的亲缘关系,在父进程中先调用mmap(),而后调用fork()。那么 在调用fork()以后,子进程继承父进程匿名映射后的地址空间,一样也继承mmap()返回的地址,这样,父子进程就能够经过映射区域进行通讯了。注 意,这里不是通常的继承关系。通常来讲,子进程单独维护从父进程继承下来的一些变量。而mmap()返回的地址,却由父子进程共同维护。 对于具备亲缘关系的进程实现共享内存最好的方式应该是采用匿名内存映射的方式。此时,没必要指定具体的文件,只要设置相应的标志便可,参见范例2。 三、系统调用munmap() int munmap( void * addr, size_t len ) 该调用在进程地址空间中解除一个映射关系,addr是调用mmap()时返回的地址,len是映射区的大小。当映射关系解除后,对原来映射地址的访问将致使段错误发生。 四、系统调用msync() int msync ( void * addr , size_t len, int flags) 通常说来,进程在映射空间的对共享内容的改变并不直接写回到磁盘文件中,每每在调用munmap()后才执行该操做。能够经过调用msync()实现磁盘上文件内容与共享内存区的内容一致。 回页首 3、mmap()范例 下 面将给出使用mmap()的两个范例:范例1给出两个进程经过映射普通文件实现共享内存通讯;范例2给出父子进程经过匿名映射实现共享内存。系统调用 mmap()有许多有趣的地方,下面是经过mmap()映射普通文件实现进程间的通讯的范例,咱们经过该范例来讲明mmap()实现共享内存的特色及注意 事项。 范例1:两个进程经过映射普通文件实现共享内存通讯 范例1包含两个子程序:map_normalfile1.c及 map_normalfile2.c。编译两个程序,可执行文件分别为 map_normalfile1及map_normalfile2。两个程序经过命令行参数指定同一个文件来实现共享内存方式的进程间通讯。 map_normalfile2试图打开命令行参数指定的一个普通文件,把该文件映射到进程的地址空间,并对映射后的地址空间进行写操做。 map_normalfile1把命令行参数指定的文件映射到进程地址空间,而后对映射后的地址空间执行读操做。这样,两个进程经过命令行参数指定同一个 文件来实现共享内存方式的进程间通讯。 下面是两个程序代码: /*-------------map_normalfile1.c-----------*/ #include <sys/mman.h> #include <sys/types.h> #include <fcntl.h> #include <unistd.h> typedef struct{ char name[4]; int age; }people; main(int argc, char** argv) // map a normal file as shared mem: { int fd,i; people *p_map; char temp; fd=open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777); lseek(fd,sizeof(people)*5-1,SEEK_SET); write(fd,"",1); p_map = (people*) mmap( NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0 ); close( fd ); temp = 'a'; for(i=0; i<10; i++) { temp += 1; memcpy( ( *(p_map+i) ).name, &temp,2 ); ( *(p_map+i) ).age = 20+i; } printf(" initialize over \n "); sleep(10); munmap( p_map, sizeof(people)*10 ); printf( "umap ok \n" ); } /*-------------map_normalfile2.c-----------*/ #include <sys/mman.h> #include <sys/types.h> #include <fcntl.h> #include <unistd.h> typedef struct{ char name[4]; int age; }people; main(int argc, char** argv) // map a normal file as shared mem: { int fd,i; people *p_map; fd=open( argv[1],O_CREAT|O_RDWR,00777 ); p_map = (people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0); for(i = 0;i<10;i++) { printf( "name: %s age %d;\n",(*(p_map+i)).name, (*(p_map+i)).age ); } munmap( p_map,sizeof(people)*10 ); } map_normalfile1.c 首先定义了一个people数据结构,(在这里采用数据结构的方式是由于,共享内存区的数据每每是有固定格式的,这由通讯的各个进程决定,采用结构的方式 有广泛表明性)。map_normfile1首先打开或建立一个文件,并把文件的长度设置为5个people结构大小。而后从mmap()的返回地址开 始,设置了10个people结构。而后,进程睡眠10秒钟,等待其余进程映射同一个文件,最后解除映射。 map_normfile2.c只是简单的映射一个文件,并以people数据结构的格式从mmap()返回的地址处读取10个people结构,并输出读取的值,而后解除映射。 分别把两个程序编译成可执行文件map_normalfile1和map_normalfile2后,在一个终端上先运行./map_normalfile2 /tmp/test_shm,程序输出结果以下: initialize over umap ok 在map_normalfile1输出initialize over 以后,输出umap ok以前,在另外一个终端上运行map_normalfile2 /tmp/test_shm,将会产生以下输出(为了节省空间,输出结果为稍做整理后的结果): name: b age 20; name: c age 21; name: d age 22; name: e age 23; name: f age 24; name: g age 25; name: h age 26; name: I age 27; name: j age 28; name: k age 29; 在map_normalfile1 输出umap ok后,运行map_normalfile2则输出以下结果: name: b age 20; name: c age 21; name: d age 22; name: e age 23; name: f age 24; name: age 0; name: age 0; name: age 0; name: age 0; name: age 0; 从程序的运行结果中能够得出的结论 一、 最终被映射文件的内容的长度不会超过文件自己的初始大小,即映射不能改变文件的大小; 二、 能够用于进程通讯的有效地址空间大小大致上受限于被映射文件的大小,但不彻底受限于文件大小。打开文件被截短为5个people结构大小,而在 map_normalfile1中初始化了10个people数据结构,在恰当时候(map_normalfile1输出initialize over 以后,输出umap ok以前)调用map_normalfile2会发现map_normalfile2将输出所有10个people结构的值,后面将给出详细讨论。 注:在linux中,内存的保护是以页为基本单位的,即便被映射文件只有一个字节大小,内核也会为映射分配一个页面大小的内存。当被映射文件小 于一个页面大小时,进程能够对从mmap()返回地址开始的一个页面大小进行访问,而不会出错;可是,若是对一个页面之外的地址空间进行访问,则致使错误 发生,后面将进一步描述。所以,可用于进程间通讯的有效地址空间大小不会超过文件大小及一个页面大小的和。 三、文件一旦被映射后,调用 mmap()的进程对返回地址的访问是对某一内存区域的访问,暂时脱离了磁盘上文件的影响。全部对mmap()返回地址空间的操做只在内存中有意义,只有 在调用了munmap()后或者msync()时,才把内存中的相应内容写回磁盘文件,所写内容仍然不能超过文件的大小。 范例2:父子进程经过匿名映射实现共享内存 #include <sys/mman.h> #include <sys/types.h> #include <fcntl.h> #include <unistd.h> typedef struct{ char name[4]; int age; }people; main(int argc, char** argv) { int i; people *p_map; char temp; p_map=(people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED|MAP_ANONYMOUS,-1,0); if(fork() == 0) { sleep(2); for(i = 0;i<5;i++) printf("child read: the %d people's age is %d\n",i+1,(*(p_map+i)).age); (*p_map).age = 100; munmap(p_map,sizeof(people)*10); //实际上,进程终止时,会自动解除映射。 exit(); } temp = 'a'; for(i = 0;i<5;i++) { temp += 1; memcpy((*(p_map+i)).name, &temp,2); (*(p_map+i)).age=20+i; } sleep(5); printf( "parent read: the first people,s age is %d\n",(*p_map).age ); printf("umap\n"); munmap( p_map,sizeof(people)*10 ); printf( "umap ok\n" ); } 考察程序的输出结果,体会父子进程匿名共享内存: child read: the 1 people's age is 20 child read: the 2 people's age is 21 child read: the 3 people's age is 22 child read: the 4 people's age is 23 child read: the 5 people's age is 24 parent read: the first people,s age is 100 umap umap ok 回页首 4、对mmap()返回地址的访问 前 面对范例运行结构的讨论中已经提到,linux采用的是页式管理机制。对于用mmap()映射普通文件来讲,进程会在本身的地址空间新增一块空间,空间大 小由mmap()的len参数指定,注意,进程并不必定可以对所有新增空间都能进行有效访问。进程可以访问的有效地址大小取决于文件被映射部分的大小。简 单的说,可以容纳文件被映射部分大小的最少页面个数决定了进程从mmap()返回的地址开始,可以有效访问的地址空间大小。超过这个空间大小,内核会根据 超过的严重程度返回发送不一样的信号给进程。可用以下图示说明: 注意:文件被映射部分而不是整个文件决定了进程可以访问的空间大小,另外,若是指定文件的偏移部分,必定要注意为页面大小的整数倍。下面是对进程映射地址空间的访问范例: #include <sys/mman.h> #include <sys/types.h> #include <fcntl.h> #include <unistd.h> typedef struct{ char name[4]; int age; }people; main(int argc, char** argv) { int fd,i; int pagesize,offset; people *p_map; pagesize = sysconf(_SC_PAGESIZE); printf("pagesize is %d\n",pagesize); fd = open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777); lseek(fd,pagesize*2-100,SEEK_SET); write(fd,"",1); offset = 0; //此处offset = 0编译成版本1;offset = pagesize编译成版本2 p_map = (people*)mmap(NULL,pagesize*3,PROT_READ|PROT_WRITE,MAP_SHARED,fd,offset); close(fd); for(i = 1; i<10; i++) { (*(p_map+pagesize/sizeof(people)*i-2)).age = 100; printf("access page %d over\n",i); (*(p_map+pagesize/sizeof(people)*i-1)).age = 100; printf("access page %d edge over, now begin to access page %d\n",i, i+1); (*(p_map+pagesize/sizeof(people)*i)).age = 100; printf("access page %d over\n",i+1); } munmap(p_map,sizeof(people)*10); } 如 程序中所注释的那样,把程序编译成两个版本,两个版本主要体如今文件被映射部分的大小不一样。文件的大小介于一个页面与两个页面之间(大小 为:pagesize*2-99),版本1的被映射部分是整个文件,版本2的文件被映射部分是文件大小减去一个页面后的剩余部分,不到一个页面大小(大小 为:pagesize-99)。程序中试图访问每个页面边界,两个版本都试图在进程空间中映射pagesize*3的字节数。 版本1的输出结果以下: pagesize is 4096 access page 1 over access page 1 edge over, now begin to access page 2 access page 2 over access page 2 over access page 2 edge over, now begin to access page 3 Bus error //被映射文件在进程空间中覆盖了两个页面,此时,进程试图访问第三个页面 版本2的输出结果以下: pagesize is 4096 access page 1 over access page 1 edge over, now begin to access page 2 Bus error //被映射文件在进程空间中覆盖了一个页面,此时,进程试图访问第二个页面 结论:采用系统调用mmap()实现进程间通讯是很方便的,在应用层上接口很是简洁。内部实现机制区涉及到了linux存储管理以及文件系统等方面的内容,能够参考一下相关重要数据结构来加深理解。在本专题的后面部分,将介绍系统v共享内存的实现