存储器的层次结构

时间 2019-12-04

标签存储器层次结构繁體版

原文原文链接

存储技术

咱们在买电脑时都会关注内存、处理器、硬盘等部件的性能，都想内存尽量大，硬盘最好是固态的。git

不知道你有没有遇到过本身写了大半天的文档，由于不当心忽然关机了，本身辛苦忙活了几个小时的成果又得重写的状况。但是你是否想过为何关机了就会丢失这些信息呢？为何硬盘上的文件没有丢？程序员

会丢的那部分信息确定是和电有关系的，否则也不会一断电就丢信息。内存就是这样的部件，更专业一点的称呼是随机访问存储器。github

随机访问存储器（RAM）分静态和动态的两种，静态 RAM 是将信息存储在一个双稳态的存储单元里。什么叫双稳态呢？就是只有两种稳定的状态，虽然也有其它状态，但即便细微的扰动，也会让它立马进入一个稳定的状态。编程

动态 RAM 使用的是电容来存储信息，学过物理的都知道电容这个概念，它很容易就会漏电，使得动态 RAM 单元在 10~100 ms 时间内就会丢失电荷（信息），可是不要忘记，计算机的运行时间是以纳秒计算的，1 GHz 的处理器的时钟周期就是 1 ns，更况且如今的处理器都不止 1 GHz，因此 ms 相对于纳秒来讲是很长的，计算机不用担忧会丢失信息。数组

动态 RAM 芯片就封装在内存模块中，比内存更大的存储部件是磁盘，发现本身在旧文你真的了解硬盘吗？对磁盘总结的已经不错了，就直接过渡到局部性上面去了吧。缓存

局部性

局部性一般有两种不一样的形式：时间局部性和空间局部性。在一个具备良好时间局部性的程序中，被引用过一次的内存位置极可能在不远的未来会再被屡次引用；一样在一个具备良好空间局部性的程序中，若是一个内存被引用了一次，那么程序极可能在不远的未来引用附近的一个内存位置。服务器

不要小看局部性，局部性好的程序会比局部性差的程序运行的更快，要往高级程序员走，这是确定须要了解的。咱们选择把一些经常使用的文件从网盘下下来，利用的就是时间局部性。网络

下面这段代码，再简单不过，咱们仅观察一下其中的v向量，向量v的元素是一个接一个被读取的，即按照存储在内存中的顺序被读取的，因此它有很好的空间局部性；可是每一个元素都只被访问一次，就使得时间局部性不好了。实际上对于循环体中的每一个变量，这个函数要么具备好的空间局部性，要么具备好的时间局部性。编程语言

int sumvec(int v[N]){
    int i, sum = 0;
    for(i = 0; i < N; i++){
        sum += v[i];
    }
    return sum;
}
复制代码

像上面的代码，每隔 1 个元素进行访问，称之为步长为 1 的引用模式。通常而言，随着步长的增长，空间局部性降低。函数

固然，不只数据引用有局部性，取指令也有局部性。好比for循环，循环体中的指令是按顺序执行的，而且会被执行屡次，因此它有良好的空间局部性和时间局部性。

高速缓存

不一样存储技术的访问时间差别很大，而咱们想要的是又快又大的体验，然而这又是违背机械原理的。为了让程序运行的更快，计算机设计者在不一样层级之间加了缓存，好比在 CPU 与内存之间加了高速缓存，而内存又做为磁盘的缓存，本地磁盘又是 Web 服务器的缓存。屡次访问一个网页，会发现有一些网络请求的状态码是 300，这就是从本地缓存读取的。

以下图所示，高速缓存一般被组织为下面的形式，计算机须要从具体的地址去拿指令或者数据，而这个地址也被切分为不一样的部分，能够直接映射到缓存上去。看下面详细的介绍应该更容易理解。

直接映射高速缓存每一个组只有一行。高速缓存肯定一个请求是否命中，而后抽取出被请求的字的过程分为：组选择、行匹配、字抽取三步。

好比当 CPU 执行一条读内存字w的指令，首先从w地址中间抽取出s个组索引位，映射到对应的组，而后经过t位标记肯定是否有字w的一个副本存储在该组中；最后使用b位的块偏移肯定所须要的字块是从哪里开始的。

上面这个图，还有下面这个表，对应着看，因为能力有限，感受怎么都讲很差，多盯着一下子，应该就会得到一种豁然开朗之感。

直接映射高速缓存形成冲突不命中的缘由在于每一个组只有一行，组相联高速缓存放松了这一限制，每一个组都保存多于一行的高速缓存行，因此在组选择完成以后，须要遍历对应组中的行进行行匹配。

固然，咱们能够把每一个组中的缓存行数继续扩大，即全相联高速缓存，全部的缓存行都在一个组，它总共只有一个组。所以对地址的划分就不须要组索引了，以下图所示。

编写缓存友好的代码

float dotprod(float x[8], float y[8]){
    float sum = 0.0;
    int i;
    for(i = 0; i < 8; i++){
        sum += x[i] * y[i];
    }
    return sum;
}
复制代码

这段函数很简介，就是计算两个向量点积的函数，并且对于x和y来讲，这个函数具备很好的空间局部性，若是使用直接映射高速缓存，那它的缓存命中率并不高。

从表中就能看到，每次对x和y的引用都会致使冲突不命中，由于咱们在x和y的块之间抖动，即高速缓存反复的加载替换相同的高速缓存块组。

咱们只须要作一个小小的改动，就能让命中率大大提升，即让程序运行的更快。这个改动就是把float x[8]改成floatx[12]，改动后的索引映射就变成下面那样了，很是的友好。

再来看一个多维数组，函数的功能是对全部元素求和，两种不一样的写法。

// 第一种
int sumarrayrows(int a[M][N]){
    int i, j, sum = 0;
    for(i = 0; i < M; i++){
        for(j = 0; j < N; j++){
            sum += a[i][j];
        }
    }
    return sum;
}

// 第二种
int sumarrayrows(int a[M][N]){
    int i, j, sum = 0;
    for(j = 0; j < M; j++){
        for(i = 0; i < N; i++){
            sum += a[i][j];
        }
    }
    return sum;
}
复制代码

从编程语言角度来看，两种写法的效果是同样的，都是求数组全部元素的和，可是深刻分析就会发现，第一种写法会比第二种运行的更快，由于第二种写法一次缓存命中都不会发生，而第一种写法会有 24 次缓存命中，因此第一比第二种运行更快是必然的结果，第一种和第二种的缓存命中模式分别以下所示（粗体表示不命中）。