读懂操做系统之缓存原理（cache）（三）

时间 2020-06-08

标签读懂系统缓存原理 cache 繁體版

原文原文链接

前言

本节内容计划是讲解TLB与高速缓存的关系，可是在涉及高速缓的前提是咱们必需要了解操做系统缓存原理，因此提早先详细了解下缓存原理，咱们依然是采起按部就班的方式来解答缓存原理，如有叙述不当之处，还请批评指正。算法

缓存原理

高速缓存被划分为多个块，其大小可能不一样，缓存中的块数一般为2的幂。以下为一个具备八个块的高速缓存，每一个块包含一个字节。缓存

经过本节对缓存原理的学习咱们可以学习到四点：数据结构

【1】当咱们将数据块从主存储器复制到缓存，咱们到底应该放在哪里？app

【2】如何判断一个字是否已经在缓存中，或者它是否必须首先从主存储器中获取？性能

【3】较小的缓存最终会填满，须要至从主存加载新块，咱们必须替换缓存中现有的哪一个块？学习

【4】存储系统如何处理写操做？spa

数据放在缓存哪里？

缓存最简单的数据结构是直接映射：其中每一个存储器地址仅仅对应到缓存中的一个位置。例如以下，16个字节的主存和4个字节的缓存（每一个块一个字节），内存地址为0、四、八、12分别映射到缓存中为0的块，而地址一、五、九、13被映射到块1操作系统

等等，咱们是否是讲解的太快了，上述地址怎么就划分到好比块0或块1了呢？要找出缓存所在块采起取模法：（块地址）mod （缓存中的块数），若是缓存包含2^k块，则内存地址i处的数据将进入缓存块索引为i mod 2^k。仍是不懂？咱们来举个例子，以下缓存有4个块，那么地址为14将映射到块2即（14 mod 4 = 2）。设计

为便于你们理解如上为10进制表示内存地址，将内存地址映射到缓存块中实际等效的方式是将内存地址中的最低有效k位（二进制）进行映射。正以下面咱们所看到的，内存地址14（1110，二进制）将最低有效位10做为块中的索引3d

怎样找到缓存中数据？

到目前为止咱们知道了将地址利用直接映射的结构映射到缓存中，那么咱们找到数据是否在缓存中呢？若是要读取内存地址i，则可使用mod技巧来肯定哪一个缓存块将包含i，如上所述，若其余地址也可能映射到相同的缓存块，那么咱们如何区分它们呢？例如以下内存地址二、六、十、14都在缓存块2中

为了解决这个问题，咱们须要向高速缓存中添加标记（tag），经过内存地址的高位来提供标记位，以使咱们可以区分映射到同一高速缓存块的不一样存储位置。例如以下。内存地址6即（0110，二进制），将低位10做为索引（index），高位01做为标记（tag）。

咱们经过将高速缓存块标记（tag）与块索引（index）组合起来，能够准确地知道主存储器的哪些地址存储在高速缓存中。

当程序加载到内存中时，缓存为空，不包含有效数据，咱们应该经过为每一个缓存块添加一个有效位来解决这个问题，系统初始化时，全部有效位均设置为0，当数据加载到特定的缓存块中时，相应的有效位设置为1。

当CPU尝试从内存中读取数据时，该地址将被发送到缓存控制器，地址的最低k位将在缓存中索引一个块，若是该块有效且标签与m位地址的高（m-k）位匹配，则该数据将被发送到CPU，以下为一个32位内存地址和2¹⁰字节高速缓存的图。

到这里咱们会发现一个问题，将每个字节对应一字节缓存块并无很好的利用空间局部性，要是访问一个地址后将访问附近的地址，咱们又该怎么办？咱们要作的是将缓存块的大小要大于1个字节。以下，咱们使用两个字节的块，所以咱们能够用两个来加载缓存一次读取一个字节，若是咱们从内存地址12读取数据，则地址中的数据12和13都将被复制到缓存块2。

如今，咱们又该如何肯定数据应放在缓存中的位置？如今演变成块地址，若是缓存块大小为2ⁿ字节，咱们也能够在概念上将主内存也划分红2ⁿ字节块，要肯定字节地址i的块地址，能够进行整数除法（i / 2ⁿ），以下示例中有2个字节的缓存块，所以咱们能够将16个字节的主存储器视为8块主存储器，例如，存储器地址12和13都对应于块地址6，由于12 / 2 = 6和13 / 2 = 6。

如今咱们知道了块地址，就能够像上述同样将其映射到缓存：找到块地址除以缓存块数后的余数。在以下示例中，内存块6属于缓存块2，由于6 mod 4 =2，这对应于未来自存储器字节地址12和13的数据都放入高速缓存块2中。

当咱们访问内存中的一个字节数据时，咱们会将其整个块复制到缓存中以达到充分利用空间局部性。在咱们的示例中，若是程序从字节地址12读取，咱们会将全部存储块6（地址12和13）都加载到缓存块2中（注意：字节地址13对应于相同的存储块地址）所以，对地址13的读取也会致使将存储块6（地址12和13）加载到高速缓存块2中。为了简化起见，存储块的字节i始终存储在相应高速缓存块的字节i中。

假设咱们有一个包含2^k块的缓存，每一个块包含2ⁿ个字节，咱们能够经过查看其在主内存中的地址来肯定该缓存中一个字节的数据位置，地址的k位将选择2^k个高速缓存块之一，最低的n位如今是一个块偏移量，它决定了高速缓存块中的2ⁿ个字节中的哪一个将存储数据。

咱们来举个例子加深理解，以下示例使用2²块高速缓存，每一个块占2¹字节，所以，存储器地址13（1101）将存储在高速缓存块2的字节1中。

到这里为止，咱们才算分析清楚了缓存中有效位、标记位、索引、偏移它们的由来以及实际做用。同时对于缓存采用的直接映射（direct mapped）结构：索引和偏移量可使用位运算符或简单的算术运算，由于每一个内存地址都刚好属于一个块。实际上咱们能够将一个块放置到缓存中的任何一个位置，这种机制称为全相联（fully associative）。全相联的高速缓存容许将数据存储在任何高速缓存块中，而不是将每一个内存地址强制映射到一个特定的块中，从内存中获取数据时，能够将其放置在高速缓存的任何未使用块中。这样，咱们将永远不会在映射到单个缓存块的两个或多个内存地址之间发生冲突，在上述示例中，咱们可能将内存地址2放在缓存块2中，并将地址6放在块3中。而后对2和6的后续重复访问将所有命中而不是未命中，若是全部块都已被使用，则使用LRU算法进行替换。可是在全相联缓存中要查找一个指定的块，因为该块存放在缓存中的任何位置，所以须要检索缓存中的全部项，为了是检索更加有效，它是由一个与缓存中每一个项都相关的比较器并行完成的，这些比较器加大了硬件开销，于是，全相联只适合块数较少的缓存。介于直接映射和全相联之间的设计是组相联（set associative）。在组相联缓存中，每一个块可被放置的位置数固定，每一个块有n个位置可放的缓存被称做n路组相联，一个n路组相联缓存由不少组组成，每一个组有n个块。经过上述对直接映射的讲解，最终咱们得出指定内存地址所在存储的块号为：（块号） mod （缓存中的块数），而组相联对于存储块号是：（块号） mod （缓存中的组数）。以下为8块高速缓存的组织

组相联实际上就是将块进行分组，好比如上第一个图则是直接映射（咱们大可将其看作是每个块就是一个组，因此是1路8组相联），而第二张图则是每2个块做为一组，因此是2路4组相联，同理第三张图是4路2组相联。换句话说，若每组有2ⁿ块，那么就是2ⁿ路相联。经过对组相联的讲解，咱们再叙内存地址在组相联缓存中的位置。若是咱们有2^s组而且每块有2ⁿ字节，那么内存地址映射在缓存中的位置则是以下这般

如今咱们运算则是计算缓存中的组索引而非再是块，上述Block offset（在组中块偏移）= 内存地址 mod 2ⁿ，块地址 = 内存地址 / 2ⁿ，set index（组索引） = 块地址 mod 2^s。咱们仍是经过图解来进行叙述，假设有一个8块的高速缓存，而后每一个块是16个字节，那么内存地址为6195的数据存储在缓存哪里呢？首先咱们将6195转换为二进制 = 110000 011 0011，因每一个块是16字节即2⁴，因此块偏移量为4位即0011，若采用1路8组相联（直接映射）那么其组索引就是（6195 mod 8） = 3，取6195转换而二进制去除偏移量4位，因此为011，同理（根据上述给定计算公式）对于2路4组相联其组索引为（11），4路2组相联其组索引为（1），以下：

到这里咱们知道将数据进行缓存咱们能够采起直接映射、组相联、全相联的机制，经过增长相联度一般能够下降缓存缺失率，可是增长相联度也就增长了每组中的块数，也就是并行查找时同时比较的次数，相联度每增长两倍就会使得每组中的块数加倍而使得组数减半，因此增大了访问时间的开销。如何找到一个块，固然也就依赖于所使用的将块放置的机制（直接映射、组相联、全相联），相较于全相联而言，它使用复杂的替换策略而下降缺失率且很容易被索引，而不须要额外的硬件，也不须要进行查找。所以虚拟存储系统一般使用全相联映射，而组相联映射一般应用于缓存和TLB。

缓存缺失和写操做

缓存缺失被分为如下三类（3C模型，three Cs model），因其三类名称以字母c开头而得名

强制缺失（compulsory miss）：对从没有在缓存中出现的块第一次进行访问引发的缺失，也称为冷启动缺失（cold-start miss）

容量缺失：（capacity miss）：因为缓存容纳不了一个程序执行所须要的全部块而引发的缓存缺失，当某些块被替换出去，随后再被调入时，将发生容量缺失

冲突缺失（conflict miss）：在组相联或者直接映射的缓存中，多个竞争同一个组时而引发的缓存缺失。冲突缺失在直接映射或组相联缓存中存在，而在一样大小的全相联缓存中不存在，这种缓存缺失也称为碰撞缺失（collision miss）

改变缓存设计的某一方面就能直接影响这些缺失的缘由。冲突缺失是由于争用同一个缓存块而引发的，所以提升相联度能够减小冲突缺失，而后提升相联度会延长访问时间，致使整个性能的下降，容量缺失能够简单地经过增大缓存容量来减小，固然缓存容量增大的同时必然致使访问时间的增长，也将致使总体性能的下降。

在相联的缓存中发生缺失时，咱们必须决定替换哪一块，如如果全相联，那么全部的块都是被替换的候选者，如如果组相联，咱们必须在某一组的块中进行选择，固然，直接映射的缓存替换很简单，由于只有一个能够替换的候选者。所以在全相联或组相联缓存中，有两种主要的替换策略

随机法：随机选择候选块，可能使用一些硬件来协助实现，例如TLB缺失、MIPS支持随机替换

LRU（最近最少使用算法）：被替换的块是最久没有被使用过的块（在大多虚拟存储器中，对于LRU都是经过提供引用位来近似实现（好比TLB））

指令缓存缺失（数据缺失也相似如此）处理步骤以下：

【1】将程序计数器（PC）的原始值送到寄存器

【2】通知主存执行一次读操做，并等待主存访问完成

【3】写缓存项，将从主存取回的数据写入缓存中存放数据的部分，并将高位（从ALU中获得）写入标记域，设置有效位

【4】重启指令执行第一步，从新取指，此次该指令发生在缓存中

数据访问是对缓存的控制基本相同：发生缺失时，处理器发生阻塞，直到从存储器中取回数据后才响应。在执行写操做时，若是有一个存储指令，咱们只将数据写入缓存而不改变主存中的内容，那么在写入缓存后将致使缓存和主存被认为不一致，保持主存和缓存一致性最简单的方法是将数据同时写入主存和缓存中，这种方法称为【写直达】法。可是这种方法没法提供良好的性能，由于每次写操做都要把数据写入主存中，这些写操做将花费大量的时间，可能至少花费100个处理时钟周期，而且大大下降了机器速度，解决这个问题的方案之一是采用【写缓冲：一个保存等待写入主存数据的缓冲队列】，当一个数据在等待写入缓存时，先将其写入缓冲中，当数据写入缓存和缓冲后，处理器能够继续执行，当写主存操做完成后，写缓冲里的数据项也获得有效释放。若是写缓冲已经满了，那么当处理器执行到一个写操做时就必须停下来直到写缓冲中有一个空位置，固然，若是存储器完成写操做的速度比处理器产生写操做的速度慢，那么再多的缓冲器也无用，由于产生写操做比存储系统接收它们更快。

除了写直达方法外，另一种可选择的方法是【写回】，在写回机制中，当发生写操做时，新值仅仅被写入到缓存块中，只有当修改过的块被替换时才须要写到磁盘上，写回机制可提升系统性能，尤为是当处理器写操做的速度和主存处理写操做速度同样快甚至更快时，可是，写回机制的实现比写直达要复杂得多。大部分写回机制的缓冲也是使用写缓冲，当在发生缺失替换一个被修改的块时，写缓冲能够起到下降缺失代价的做用。在这种状况下，被修改的数据块移入与缓存相联的写回缓冲器，同时从主存中读出所须要的数据块。随后，写回缓冲器再将数据写入主存，若是下一次缺失没有马上发生，当脏数据块必须被替换时，这种方法能够减小一半的缺失代价。

总结

一个缓存块能够放在何处：一个位置（直接映射），一些位置（组相联），任何位置（全相联）。

如何找到一个块：索引（直接映射的缓存中），有限的检索（组相联的缓存中），所有检索（全相联的缓存中）、专用查找页表。

缓存缺失时替换哪一块：随机选取、LRU

写操做如何处理：写直达或写回策略

本文咱们很是详细的讲解了缓存的基本原理，固然对于如何处理缓存一致性并未涉及（大多采用监听协议），但愿经过我对缓存原理的理解能给阅读的您能有力所能及的帮助，谢谢。