计组-高速缓存

时间 2021-08-13

标签算法数组缓存数据结构并发 ide 性能 blog 索引内存栏目系统性能繁體版

原文原文链接

高速缓存

为了减低成本，增长cpu访问主存的性能，通常都会在主存与cpu之间增长小容量的缓存，能够采用这种方式的一个很主要缘由就是程序执行的局部性。算法

程序的局部性

自我理解程序的局部性就是大多数时候程序都是按照代码一行行的执行可能发生条件转移指令可是程序跳转的范围也不是特别的大。下面来一个专业的解释：在一段时间内，仅会执行程序的一部分，而在这段时间内要执行的指令和数据都放置在某个存储区域内。数组

时间局部性缓存

当程序访问某个存储位置的时候可能会屡次访问该位置，好比热点方法，循环中的代码以及数据。数据结构
空间局部性并发

当程序访问了某个存储单元，其附近的存储单元也将被访问，访问主存中的数组,代码，数据结构有较强的空间局部性。ide

缓存概览

咱们增长了高速缓存以后但愿cpu能够直接在缓存中能够直接取到数据这样，cpu须要数据的时候确定先访问缓存，咱们的缓存，咱们须要一种查找机制来判断是否命中缓存（须要的内容在缓存中），没有命中缓存称之为数据缺失，发生缺失的时候从主存拿到数据所须要的时间称之为缺失补偿。通常缓存跟主存都被划分为以字为单位的固定大小的数据块，缓存跟主存交换数据的时候都是以块为单位，这样数据缺失的时候相邻的数据也被添加到了缓存之中，充分利用了空间局部性，提升了命中率。性能

块过大会致使程序的时间局部性受到影响，好比a在块blockA中b在BlockB中，可是这两个块放在缓存中相同位置（块越大他俩在缓存之中放置相同位置的机率就越大，也跟置换规则有关），须要频繁的访问a,b就要发生频繁的发生块替换致使时间局部性受到影响。块太小会影响程序的空间局部性。blog

进行数据分块后，主存地址跟cache地址都可以分为块地址以及块内偏移地址。他俩的偏移地址相同由于块大小相同。索引

cache读，写流程

cache读流程

当cpu拿到要访问的地址之后首先访问缓存若是数据在缓存中就直接返回数据到cpu。若是发生缺失，就要访问主存当中相应的数据块，若是此时缓存已经满了或者要载入的位置有数据冲突则要发生块替换。并更新查找表。内存

cache写流程

写的流程相比读流程要复杂一些，写的时候首先在cache之中进行数据查找，若是发生缺失则要判断是否为写分配策略或者不是写分配策略，写分配策略意味着要发生块替换，不是写分配策略则直接写入数据到主存而且写入流程结束（标识数据为脏数据,cache块数据跟主存数据不一致），采用写分配策略以及发生命中的状况下在将cache中的数据更该过之后，可使用写回或者写穿策略，写穿策略就是直接将cache中修改的数据，在主存中也修改一遍，写回策略就是要等到发生块替换的时候再将数据块上的更改一并写入主存之中，为了标识一个cache数据块是否跟主存相应数据块发生了变化咱们通常会使用一个bit的标识为来标识cache块来决定是否在块替换的时候执行主存数据的更新.

cache实现的关键技术

数据查找

怎样快速判断相应的主存地址是否在cache中
地址映射

主存中的数据块是任意放置仍是按照必定规则
替换策略

cache满的时候应该替换调哪一块内存
写入策略

如何保证cache与主存数据的一致性，写回仍是写穿策略

数据查找

数据查找通常使用相联存储器（CAM）进行查找，CAM根据要查找的Key并发查找。

地址映射

全相联：主存块映射到任意cache块
直接相联：各个主存块只能够映射都特定的主存块
组相联：主存块能够映射到cache固定组的任意位置
全相联：
因为主存块的数据能够映射到cache的任意位置，因此只有当cache满时才会发生块替换，这样主存的利用率高，可是查找数据的时候比较满，由于每一个cache行都要查看是否匹配。
查找数据时直接并行比较全部cache行的主存地址，若是相同而且有效位为1则代表查找的数据在cache当中。如果写命中则将更改cache中的数据，而且脏数据位置为1；若是是读命中，就输出cache行中offset处的数据。

特色：cache利用率高；cache冲突率低；查找的时候并发比较全部的行，硬件成本高适合小容量缓存。

直接相联：

将cache行标上序号（假设一共有n个cache行），主存块号对 n求余就是该主存块能够映射的cache行号，也就是说从主存头部数据块开始的n个数据块，他们是不会发生cache冲突的，由于他们位于同一个区。这样咱们能够将主存块划分一个区号，区内行索引，块内偏移，这样查找的适合能够根据行号快速定位到cache行而后比较cache行的区号就行，查找更简单。

特色：cache利用率低，发生cache冲突的概率较高，查找成本低，适合大容量存储。

组相联：

组相联算是上述两个的结合物，首先将cache划分位行数相同的不一样的组，而后根据主存的前几位对组的数量求余，获得的余数就对应主存能够放置的组号，接下来跟直接相联不一样的是它再也不根据主存地址肯定组内行号而是随便放置，使用主存地址的中间几位做为标识肯定要找的目标cache行。

特色：cache利用率以及冲突发生概率都属于中等水平

替换算法

先进先出算法(FIFO)

要给每一个数据块一个时间戳，或者时间计数。
特色：没有考虑程序访问的局部性，命中率低
最不常用(LFU)

给每一个数据块一个初始值每次访问就将该值+1，当要替换的时候将计数最小的丢弃。
特色：只能够反应历史总访问状况，不能反映近期访问状况。
近期最少使用(LRU)

当访问命中的时候就将cache行对应的计数置为0，其余行的计数+1，替换的时候先替换值最大的cache行

LRU在数据结构中的应用，并无采用给每一个元素一个计数的方式而是采用链表将各个元素穿起来，若是访问了某个元素就将其放在链表的尾部或者头部，替换的时候直接从链表的另外一端开始替换。
随即替换

随机选取cache行进行替换，不用比较计数器，步骤简单，并且快速，可是冲突的概率可能要大于LRU，以及LFU。

写入策略

写回法

当写命中的时候只修改cache行中的数据，不修改主存当中对应的数据，而是将cache的脏数据位置为1，当该cache行要发生替换的时候再去同步主存的数据。会致使cache与主存的数据不一致，DMA操做可能会取到不是最新的数据。
写穿法当写命中的时候同时将cache行以及主存数据修改。缺点：cache对cpu的写操做没有缓冲功能。