Linux内存映射mmap详解
mmap基本概念
mmap是⼀种内存映射⽂件的⽅法,将⼀个⽂件或者其它对象映射到进程的地址空间,实现⽂件磁盘地址和进程虚拟地址空间中⼀段虚拟地址⼀⼀对应的关系。实现这样的映射关系后,进程就可以采⽤指针的⽅式读写操作这⼀段内存,⽽系统会⾃动回写脏页⾯到对应的⽂件磁盘上,即完成了对⽂件的操作⽽不必再调⽤read,write等系统调⽤函数。相反,内核空间对这段区域的修改也直接反映⽤户空间,从⽽可以实现不同进程间的⽂件共享。如下图所⽰:
由上图可以看出,进程的虚拟地址空间,由多个虚拟内存区域构成。虚拟内存区域是进程的虚拟地址空间中的⼀个同质区间,即具有同样特性的连续地址范围。上图中所⽰的text数据段(代码段)、初始数据段、BSS数据段、堆、栈和内存映射,都是⼀个独⽴的虚拟内存区域。⽽为内存映射服务的地址空间处在堆栈之间的空余部分。
linux内核使⽤vm_area_struct结构来表⽰⼀个独⽴的虚拟内存区域,由于每个不同质的虚拟内存区域功能和内部机制都不同,因此⼀个进程使⽤多个vm_area_struct结构来分别表⽰不同类型的虚拟内存区域。各个vm_area_struct结构使⽤链表或者树形结构链接,⽅便进程快速访问,如下图所⽰:
vm_area_struct结构中包含区域起始和终⽌地址以及其他相关信息,同时也包含⼀个vm_ops指针,其内部可引出所有针对这个区域可以使⽤的系统调⽤函数。这样,进程对某⼀虚拟内存区域的任何操作需要⽤要的信息,都可以从vm_area_struct中获得。mmap函数就是要创建⼀个新的vm_area_struct结构,并将其与⽂件的物理磁盘地址相连。具体步骤请看下⼀节。
mmap内存映射原理
mmap内存映射的实现过程,总的来说可以分为三个阶段:
(⼀)进程启动映射过程,并在虚拟地址空间中为映射创建虚拟映射区域
1、进程在⽤户空间调⽤库函数mmap,原型:
void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);
2、在当前进程的虚拟地址空间中,寻⼀段空闲的满⾜要求的连续的虚拟地址
3、为此虚拟区分配⼀个vm_area_struct结构,接着对这个结构的各个域进⾏了初始化
4、将新建的虚拟区结构(vm_area_struct)插⼊进程的虚拟地址区域链表或树中
(⼆)调⽤内核空间的系统调⽤函数mmap(不同于⽤户空间函数),实现⽂件物理地址和进程虚拟地址的⼀⼀映射关系
5、为映射分配了新的虚拟地址区域后,通过待映射的⽂件指针,在⽂件描述符表中到对应的⽂件描述符,通过⽂件描述符,链接到内核“已打开⽂件集”中该⽂件的⽂件结构体(struct file),每个⽂件结构体维护着和这个已打开⽂件相关各项信息。
6、通过该⽂件的⽂件结构体,链接到file_operations模块,调⽤内核函数mmap,其原型为:int mmap(struct file *filp, struct
vm_area_struct *vma),不同于⽤户空间库函数。
7、内核mmap函数通过虚拟⽂件系统inode模块定位到⽂件磁盘物理地址。
8、通过remap_pfn_range函数建⽴页表,即实现了⽂件地址和虚拟地址区域的映射关系。此时,这⽚虚拟地址并没有任何数据关联到主存中。
(三)进程发起对这⽚映射空间的访问,引发缺页异常,实现⽂件内容到物理内存(主存)的拷贝
注:前两个阶段仅在于创建虚拟区间并完成地址映射,但是并没有将任何⽂件数据的拷贝⾄主存。真正的⽂件读取是当进程发起读或写操作时。
9、进程的读或写操作访问虚拟地址空间这⼀段映射地址,通过查询页表,发现这⼀段地址并不在物理页⾯上。因为⽬前只建⽴了地址映射,真正的硬盘数据还没有拷贝到内存中,因此引发缺页异常。
10、缺页异常进⾏⼀系列判断,确定⽆⾮法操作后,内核发起请求调页过程。
11、调页过程先在交换缓存空间(swap cache)中寻需要访问的内存页,如果没有则调⽤nopage函数把所缺的页从磁盘装⼊到主存中。
12、之后进程即可对这⽚主存进⾏读或者写的操作,如果写操作改变了其内容,⼀定时间后系统会⾃动回写脏页⾯到对应磁盘地址,也即完成了写⼊到⽂件的过程。
注:修改过的脏页⾯并不会⽴即更新回⽂件中,⽽是有⼀段时间的延迟,可以调⽤msync()来强制同步, 这样所写的内容就能⽴即保存到⽂件⾥了。
mmap和常规⽂件操作的区别
对linux⽂件系统不了解的朋友,请参阅之前写的博⽂《从内核⽂件系统看⽂件读写过程》,我们⾸先简单的回顾⼀下常规⽂件系统操作(调⽤read/fread等类函数)中,函数的调⽤过程:
1、进程发起读⽂件请求。
2、内核通过查进程⽂件符表,定位到内核已打开⽂件集上的⽂件信息,从⽽到此⽂件的inode。
3、inode在address_space上查要请求的⽂件页是否已经缓存在页缓存中。如果存在,则直接返回这⽚⽂件页的内容。
4、如果不存在,则通过inode定位到⽂件磁盘地址,将数据从磁盘复制到页缓存。之后再次发起读页⾯过程,进⽽将页缓存中的数据发给⽤户进程。
总结来说,常规⽂件操作为了提⾼读写效率和保护磁盘,使⽤了页缓存机制。这样造成读⽂件时需要先将⽂件页从磁盘拷贝到页缓存中,由于页缓存处在内核空间,不能被⽤户进程直接寻址,所以还需要将页缓存中数据页拷贝到内存对应的⽤户空间中。这样,通过了两次数据拷贝过程,才能完成进程对⽂件内容的获取任务。写操作也是⼀样,待写⼊的buffer在内核空间不能直接访问,必须要先拷贝⾄内核空间对应的主存,再写回磁盘中(延迟写回),也是需要两次数据拷贝。
⽽使⽤mmap操作⽂件中,创建新的虚拟内存区域和建⽴⽂件磁盘地址和虚拟内存区域映射这两步,没有任何⽂件拷贝操作。⽽之后访问数据时发现内存中并⽆数据⽽发起的缺页异常过程,可以通过已经建⽴好的映射关系,只使⽤⼀次数据拷贝,就从磁盘中将数据传⼊内存的⽤户空间中,供进程使⽤。
总⽽⾔之,常规⽂件操作需要从磁盘到页缓存再到⽤户主存的两次数据拷贝。⽽mmap操控⽂件,只需
要从磁盘到⽤户主存的⼀次数据拷贝过程。说⽩了,mmap的关键点是建⽴了页到⽤户进程的虚地址空间映射,以读取⽂件为例,避免了页从内核态拷贝到⽤户态。因此mmap效率更⾼。
mmap优点总结
由上⽂讨论可知,mmap优点:
1、对⽂件的读取操作跨过了页缓存,减少了数据的拷贝次数,提⾼了⽂件读取效率。
2、实现了⽤户空间和内核空间的⾼效交互⽅式。两空间的各⾃修改操作可以直接反映在映射的区域内,从⽽被对⽅空间及时捕捉。
3、提供进程间共享内存及相互通信的⽅式。不管是⽗⼦进程还是⽆亲缘关系的进程,都可以将⾃⾝⽤户空间映射到同⼀个⽂件或匿名映射到同⼀⽚区域。从⽽通过各⾃对映射区域的改动,达到进程间通信和进程间共享的⽬的。
同时,如果进程A和进程B都映射了区域C,当A第⼀次读取C时通过缺页从磁盘复制⽂件页到内存中;但当B再读C的相同页⾯时,虽然也会产⽣缺页异常,但是不再需要从磁盘中复制⽂件过来,⽽可直接使⽤已经保存在内存中的⽂件数据。(mmap操作系统管理的⼀块内存,所有进程地址空间中的mmap段都会映射到这个内存块上,他不是某个进程私有的。)
4、可⽤于实现⾼效的⼤规模数据传输。内存空间不⾜,是制约⼤数据操作的⼀个⽅⾯,解决⽅案往往是借助硬盘空间协助操作,补充内存的不⾜。但是进⼀步会造成⼤量的⽂件I/O操作,极⼤影响效率。这个问题可以通过mmap映射很好的解决。换句话说,但凡是需要⽤磁盘空间代替内存的时候,mmap都可以发挥其功效。
mmap相关函数
mmap库函数原型:void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);
返回说明:
成功执⾏时,mmap()返回被映射区的指针。
失败时,mmap()返回MAP_FAILED[其值为(void *)-1], error被设为以下的某个值:
1 EACCES:访问出错
2 EAGAIN:⽂件已被锁定,或者太多的内存已被锁定
3 EBADF:fd不是有效的⽂件描述词
4 EINVAL:⼀个或者多个参数⽆效
5 ENFILE:已达到系统对打开⽂件的限制
6 ENODEV:指定⽂件所在的⽂件系统不⽀持内存映射
7 ENOMEM:内存不⾜,或者进程已超出最⼤内存映射数量
8 EPERM:权能不⾜,操作不允许
9 ETXTBSY:已写的⽅式打开⽂件,同时指定MAP_DENYWRITE标志
10 SIGSEGV:试着向只读区写⼊
11 SIGBUS:试着访问不属于进程的内存区
参数
start:映射区的开始地址
length:映射区的长度
mmap格式怎么打开
prot:期望的内存保护标志,不能与⽂件的打开模式冲突。是以下的某个值,可以通过or运算合理地组合在⼀起
1 PROT_EXEC :页内容可以被执⾏
2 PROT_READ :页内容可以被读取
3 PROT_WRITE :页可以被写⼊
4 PROT_NONE :页不可访问
flags:指定映射对象的类型,映射选项和映射页是否可以共享。它的值可以是⼀个或者多个以下位的组合体
1 MAP_FIXED //使⽤指定的映射起始地址,如果由start和len参数指定的内存区重叠于现存的映射空间,重叠部分将会被丢弃。如果指定的起始地址不可⽤,操作将会失败。并且起始地址必须落在页的边界上。
2 MAP_SHARED //与其它所有映射这个对象的进程共享映射空间。对共享区的写⼊,相当于输出到⽂件。直到msync()或者munmap()被调⽤,⽂件实际上不会被更新。
3 MAP_PRIVATE //建⽴⼀个写⼊时拷贝的私有映射。内存区域的写⼊不会影响到原⽂件。这个标志和以上标志是互斥的,只能使⽤其中⼀个。
4 MAP_DENYWRITE //这个标志被忽略。.
5 MAP_EXECUTABLE //同上
6 MAP_NORESERVE //不要为这个映射保留交换空间。当交换空间被保留,对映射区修改的可能会得到保证。当交换空间不被保留,同时内存不⾜,对映射区的修改会引起段违例信号。
7 MAP_LOCKED //锁定映射区的页⾯,从⽽防⽌页⾯被交换出内存。
8 MAP_GROWSDOWN //⽤于堆栈,告诉内核VM系统,映射区可以向下扩展。
9 MAP_ANONYMOUS //匿名映射,映射区不与任何⽂件关联。
10 MAP_ANON //MAP_ANONYMOUS的别称,不再被使⽤。
11 MAP_FILE //兼容标志,被忽略。
12 MAP_32BIT //将映射区放在进程地址空间的低2GB,MAP_FIXED指定时会被忽略。当前这个标志只
在x86-64平台上得到⽀持。
13 MAP_POPULATE //为⽂件映射通过预读的⽅式准备好页表。随后对映射区的访问不会被页违例阻塞。
14 MAP_NONBLOCK //仅和MAP_POPULATE⼀起使⽤时才有意义。不执⾏预读,只为已存在于内存中的页⾯建⽴页表⼊⼝。
fd:有效的⽂件描述符。如果MAP_ANONYMOUS被设定,为了兼容问题,其值应为-1
offset:被映射对象内容的起点
其他相关函数
int munmap( void * addr, size_t len )
返回说明
成功执⾏时,munmap()返回0。
失败时,munmap返回-1,error返回标志和mmap⼀致;
参数
addr是调⽤mmap()时返回的地址,len是映射区的⼤⼩;
当映射关系解除后,对原来映射地址的访问将导致段错误发⽣。
作⽤
该调⽤在进程地址空间中解除⼀个映射关系,
int msync( void *addr, size_t len, int flags )
⼀般说来,进程在映射空间的对共享内容的改变并不直接写回到磁盘⽂件中,往往在调⽤munmap()后才执⾏该操作。
可以通过调⽤msync()实现磁盘上⽂件内容与共享内存区的内容⼀致。
mmap使⽤细节
1、使⽤mmap需要注意的⼀个关键点是,mmap映射区域⼤⼩必须是物理页⼤⼩(page_size)的整倍数(32位系统中通常是4k字节)。原因是,内存的最⼩粒度是页,⽽进程虚拟地址空间和内存的映射也是
以页为单位。为了匹配内存的操作,mmap从磁盘到虚拟地址空间的映射也必须是页。
2、内核可以跟踪被内存映射的底层对象(⽂件)的⼤⼩,进程可以合法的访问在当前⽂件⼤⼩以内⼜在内存映射区以内的那些字节。也就是说,如果⽂件的⼤⼩⼀直在扩张,只要在映射区域范围内的数据,进程都可以合法得到,这和映射建⽴时⽂件的⼤⼩⽆关。具体情形参见“情形三”。
3、映射建⽴之后,即使⽂件关闭,映射依然存在。因为映射的是磁盘的地址,不是⽂件本⾝,和⽂件描述符⽆关。同时可⽤于进程间通信的有效地址空间不完全受限于被映射⽂件的⼤⼩,因为是按页映射。
在上⾯的知识前提下,我们下⾯看看如果⼤⼩不是页的整倍数的具体情况:
情形⼀:⼀个⽂件的⼤⼩是5000字节,mmap函数从⼀个⽂件的起始位置开始,映射5000字节到虚拟内存中。
分析:因为单位物理页⾯的⼤⼩是4096字节,虽然被映射的⽂件只有5000字节,但是对应到进程虚拟地址区域的⼤⼩需要满⾜整页⼤⼩,因此mmap函数执⾏后,实际映射到虚拟内存区域8192个 字节,5000~8191的字节部分⽤零填充。映射后的对应关系如下图所
⽰:
此时:
(1)读/写前5000个字节(0~4999),会返回操作⽂件内容。
(2)读字节50008191时,进程不会报错,但是所写的内容不会写⼊原⽂件中 。
(3)读/写8192以外的磁盘部分,会返回⼀个SIGSECV错误。
情形⼆:⼀个⽂件的⼤⼩是5000字节,mmap函数从⼀个⽂件的起始位置开始,映射15000字节到虚拟内存中,即映射⼤⼩超过了原始⽂件的⼤⼩。
**分析:**由于⽂件的⼤⼩是5000字节,和情形⼀⼀样,其对应的两个物理页。那么这两个物理页都是合法可以读写的,只是超出5000的部分不会体现在原⽂件中。由于程序要求映射15000字节,⽽⽂件只占两个物理页,因此8192字节~15000字节都不能读写,操
作时会返回异常。如下图所⽰:
此时:
(1)进程可以正常读/写被映射的前5000字节(0~4999),写操作的改动会在⼀定时间后反映在原⽂件中。
(2)对于5000~8191字节,进程可以进⾏读写过程,不会报错。但是内容在写⼊前均为0,另外,写⼊后不会反映在⽂件中。
(3)对于8192~14999字节,进程不能对其进⾏读写,会报SIGBUS错误。
(4)对于15000以外的字节,进程不能对其读写,会引发SIGSEGV错误。8191时,结果全为0。写5000

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。