从内核文件系统看文件读写过程

时间 2019-11-11

标签内核文件系统读写过程繁體版

原文原文链接

系统调用 node

操做系统的主要功能是为管理硬件资源和为应用程序开发人员提供良好的环境，可是计算机系统的各类硬件资源是有限的，所以为了保证每个进程都能安全的执行。处理器设有两种模式：“用户模式”与“内核模式”。一些容易发生安全问题的操做都被限制在只有内核模式下才能够执行，例如I/O操做，修改基址寄存器内容等。而链接用户模式和内核模式的接口称之为系统调用。 linux

应用程序代码运行在用户模式下，当应用程序须要实现内核模式下的指令时，先向操做系统发送调用请求。操做系统收到请求后，执行系统调用接口，使处理器进入内核模式。当处理器处理完系统调用操做后，操做系统会让处理器返回用户模式，继续执行用户代码。缓存

进程的虚拟地址空间可分为两部分，内核空间和用户空间。内核空间中存放的是内核代码和数据，而进程的用户空间中存放的是用户程序的代码和数据。不论是内核空间仍是用户空间，它们都处于虚拟空间中，都是对物理地址的映射。安全

应用程序中实现对文件的操做过程就是典型的系统调用过程。网络

虚拟文件系统

一个操做系统能够支持多种底层不一样的文件系统（好比NTFS, FAT, ext3, ext4），为了给内核和用户进程提供统一的文件系统视图，Linux在用户进程和底层文件系统之间加入了一个抽象层，即虚拟文件系统(Virtual File System, VFS)，进程全部的文件操做都经过VFS，由VFS来适配各类底层不一样的文件系统，完成实际的文件操做。数据结构

通俗的说，VFS就是定义了一个通用文件系统的接口层和适配层，一方面为用户进程提供了一组统一的访问文件，目录和其余对象的统一方法，另外一方面又要和不一样的底层文件系统进行适配。如图所示： app

虚拟文件系统主要模块 函数

一、超级块（super_block），用于保存一个文件系统的全部元数据，至关于这个文件系统的信息库，为其余的模块提供信息。所以一个超级块可表明一个文件系统。文件系统的任意元数据修改都要修改超级块。超级块对象是常驻内存并被缓存的。性能

二、目录项模块，管理路径的目录项。好比一个路径 /home/foo/hello.txt，那么目录项有home, foo, hello.txt。目录项的块，存储的是这个目录下的全部的文件的inode号和文件名等信息。其内部是树形结构，操做系统检索一个文件，都是从根目录开始，按层次解析路径中的全部目录，直到定位到文件。 spa

三、inode模块，管理一个具体的文件，是文件的惟一标识，一个文件对应一个inode。经过inode能够方便的找到文件在磁盘扇区的位置。同时inode模块可连接到address_space模块，方便查找自身文件数据是否已经缓存。

四、打开文件列表模块，包含全部内核已经打开的文件。已经打开的文件对象由open系统调用在内核中建立，也叫文件句柄。打开文件列表模块中包含一个列表，每一个列表表项是一个结构体struct file，结构体中的信息用来表示打开的一个文件的各类状态参数。

五、file_operations模块。这个模块中维护一个数据结构，是一系列函数指针的集合，其中包含全部可使用的系统调用函数，例如open、read、write、mmap等。每一个打开文件（打开文件列表模块的一个表项）均可以链接到file_operations模块，从而对任何已打开的文件，经过系统调用函数，实现各类操做。

六、address_space模块，它表示一个文件在页缓存中已经缓存了的物理页。它是页缓存和外部设备中文件系统的桥梁。若是将文件系统能够理解成数据源，那么address_space能够说关联了内存系统和文件系统。咱们会在文章后面继续讨论。

模块间的相互做用和逻辑关系以下图所示：

由图能够看出：

一、每一个模块都维护了一个X_op指针指向它所对应的操做对象X_operations。

二、超级块维护了一个s_files指针指向了“已打开文件列表模块”，即内核全部的打开文件的链表，这个链表信息是全部进程共享的。

三、目录操做模块和inode模块都维护了一个X_sb指针指向超级块，从而能够得到整个文件系统的元数据信息。

四、目录项对象和inode对象各自维护了指向对方的指针，能够找到对方的数据。

五、已打开文件列表上每个file结构体实例维护了一个f_dentry指针，指向了它对应的目录项，从而能够根据目录项找到它对应的inode信息。

六、已打开文件列表上每个file结构体实例维护了一个f_op指针，指向能够对这个文件进行操做的全部函数集合file_operations。

七、inode中不只有和其余模块关联的指针，重要的是它能够指向address_space模块，从而得到自身文件在内存中的缓存信息。

八、address_space内部维护了一个树结构来指向全部的物理页结构page，同时维护了一个host指针指向inode来得到文件的元数据。

进程和虚拟文件系统交互

一、内核使用task_struct来表示单个进程的描述符，其中包含维护一个进程的全部信息。task_struct结构体中维护了一个 files的指针（和“已打开文件列表”上的表项是不一样的指针）来指向结构体files_struct，files_struct中包含文件描述符表和打开的文件对象信息。

二、file_struct中的文件描述符表实际是一个file类型的指针列表（和“已打开文件列表”上的表项是相同的指针），能够支持动态扩展，每个指针指向虚拟文件系统中文件列表模块的某一个已打开的文件。

三、file结构一方面可从f_dentry连接到目录项模块以及inode模块，获取全部和文件相关的信息，另外一方面连接file_operations子模块，其中包含全部可使用的系统调用函数，从而最终完成对文件的操做。这样，从进程到进程的文件描述符表，再关联到已打开文件列表上对应的文件结构，从而调用其可执行的系统调用函数，实现对文件的各类操做。

进程 vs 文件列表 vs Inode

一、多个进程能够同时指向一个打开文件对象（文件列表表项），例如父进程和子进程间共享文件对象；

二、一个进程能够屡次打开一个文件，生成不一样的文件描述符，每一个文件描述符指向不一样的文件列表表项。可是因为是同一个文件，inode惟一，因此这些文件列表表项都指向同一个inode。经过这样的方法实现文件共享（共享同一个磁盘文件）；

I/O 缓冲区

概念

如高速缓存（cache）产生的原理相似，在I/O过程当中，读取磁盘的速度相对内存读取速度要慢的多。所以为了可以加快处理数据的速度，须要将读取过的数据缓存在内存里。而这些缓存在内存里的数据就是高速缓冲区（buffer cache），下面简称为“buffer”。

具体来讲，buffer（缓冲区）是一个用于存储速度不一样步的设备或优先级不一样的设备之间传输数据的区域。一方面，经过缓冲区，可使进程之间的相互等待变少，从而使从速度慢的设备读入数据时，速度快的设备的操做进程不发生间断。另外一方面，能够保护硬盘或减小网络传输的次数。

Buffer和Cache

buffer和cache是两个不一样的概念：cache是高速缓存，用于CPU和内存之间的缓冲；buffer是I/O缓存，用于内存和硬盘的缓冲；简单的说，cache是加速“读”，而buffer是缓冲“写”，前者解决读的问题，保存从磁盘上读出的数据，后者是解决写的问题，保存即将要写入到磁盘上的数据。

Buffer Cache和 Page Cache

buffer cache和page cache都是为了处理设备和内存交互时高速访问的问题。buffer cache可称为块缓冲器，page cache可称为页缓冲器。在linux不支持虚拟内存机制以前，尚未页的概念，所以缓冲区以块为单位对设备进行。在linux采用虚拟内存的机制来管理内存后，页是虚拟内存管理的最小单位，开始采用页缓冲的机制来缓冲内存。Linux2.6以后内核将这两个缓存整合，页和块能够相互映射，同时，页缓存page cache面向的是虚拟内存，块I/O缓存Buffer cache是面向块设备。须要强调的是，页缓存和块缓存对进程来讲就是一个存储系统，进程不须要关注底层的设备的读写。

buffer cache和page cache二者最大的区别是缓存的粒度。buffer cache面向的是文件系统的块。而内核的内存管理组件采用了比文件系统的块更高级别的抽象：页page，其处理的性能更高。所以和内存管理交互的缓存组件，都使用页缓存。

Page Cache

页缓存是面向文件，面向内存的。通俗来讲，它位于内存和文件之间缓冲区，文件IO操做实际上只和page cache交互，不直接和内存交互。page cache能够用在全部以文件为单元的场景下，好比网络文件系统等等。page cache经过一系列的数据结构，好比inode, address_space, struct page，实现将一个文件映射到页的级别：

一、struct page结构标志一个物理内存页，经过page + offset就能够将此页帧定位到一个文件中的具体位置。同时struct page还有如下重要参数：

（1）标志位flags来记录该页是不是脏页，是否正在被写回等等；

（2）mapping指向了地址空间address_space，表示这个页是一个页缓存中页，和一个文件的地址空间对应；

（3）index记录这个页在文件中的页偏移量；

二、文件系统的inode实际维护了这个文件全部的块block的块号，经过对文件偏移量offset取模能够很快定位到这个偏移量所在的文件系统的块号，磁盘的扇区号。一样，经过对文件偏移量offset进行取模能够计算出偏移量所在的页的偏移量。

三、page cache缓存组件抽象了地址空间address_space这个概念来做为文件系统和页缓存的中间桥梁。地址空间address_space经过指针能够方便的获取文件inode和struct page的信息，因此能够很方便地定位到一个文件的offset在各个组件中的位置，即经过：文件字节偏移量 --> 页偏移量 --> 文件系统块号 block --> 磁盘扇区号

四、页缓存实际上就是采用了一个基数树结构将一个文件的内容组织起来存放在物理内存struct page中。一个文件inode对应一个地址空间address_space。而一个address_space对应一个页缓存基数树。它们之间的关系以下：

Address Space

下面咱们总结已经讨论过的address_space全部功能。address_space是Linux内核中的一个关键抽象，它被做为文件系统和页缓存的中间适配器，用来指示一个文件在页缓存中已经缓存了的物理页。所以，它是页缓存和外部设备中文件系统的桥梁。若是将文件系统能够理解成数据源，那么address_space能够说关联了内存系统和文件系统。

由图中能够看到，地址空间address_space连接到页缓存基数树和inode，所以address_space经过指针能够方便的获取文件inode和page的信息。那么页缓存是如何经过address_space实现缓冲区功能的？咱们再来看完整的文件读写流程。

文件读写基本流程

读文件

一、进程调用库函数向内核发起读文件请求；

二、内核经过检查进程的文件描述符定位到虚拟文件系统的已打开文件列表表项；

三、调用该文件可用的系统调用函数read()

三、read()函数经过文件表项连接到目录项模块，根据传入的文件路径，在目录项模块中检索，找到该文件的inode；

四、在inode中，经过文件内容偏移量计算出要读取的页；

五、经过inode找到文件对应的address_space；

六、在address_space中访问该文件的页缓存树，查找对应的页缓存结点：

（1）若是页缓存命中，那么直接返回文件内容；

（2）若是页缓存缺失，那么产生一个页缺失异常，建立一个页缓存页，同时经过inode找到文件该页的磁盘地址，读取相应的页填充该缓存页；从新进行第6步查找页缓存；

七、文件内容读取成功。

写文件

前5步和读文件一致，在address_space中查询对应页的页缓存是否存在：

六、若是页缓存命中，直接把文件内容修改更新在页缓存的页中。写文件就结束了。这时候文件修改位于页缓存，并无写回到磁盘文件中去。

七、若是页缓存缺失，那么产生一个页缺失异常，建立一个页缓存页，同时经过inode找到文件该页的磁盘地址，读取相应的页填充该缓存页。此时缓存页命中，进行第6步。

八、一个页缓存中的页若是被修改，那么会被标记成脏页。脏页须要写回到磁盘中的文件块。有两种方式能够把脏页写回磁盘：

（1）手动调用sync()或者fsync()系统调用把脏页写回

（2）pdflush进程会定时把脏页写回到磁盘

同时注意，脏页不能被置换出内存，若是脏页正在被写回，那么会被设置写回标记，这时候该页就被上锁，其余写请求被阻塞直到锁释放。