程序员应该知道的操做系统知识--基础篇（三）

时间 2021-08-14

标签程序员缓存服务器多线程并发 ide 学习优化操作系统线程栏目快乐工作繁體版

原文原文链接

程序员应该知道的操做系统基础知识

在多线程并发环境下，常常出现一些意想不到的错误，例如数值的累加，错的缘由可能涉及到计算机原理以及JAVA方面的一些知识。程序员

下面咱们就先从CPU的多级缓存开始提及；缓存

CPU缓存

缓存存在的意义：服务器

CPU缓存存在的意义分两点（局部性原理）：多线程

时间局部性：若是某个数据被访问，那么在不久的未来它极可能被再次访问。
空间局限性：若是某个数据被访问，那么与它相邻的数据很快也可能被访问。

咱们先来认识一下总体结构，看一张图片，以下：并发

CPU Core : CPU核心ide

Cache : 高速缓存，数据的读取和存储都通过此高速缓存学习

Main Memory : 内存/主存优化

缓存的工做原理是当CPU要读取一个数据时，首先从缓存中查找，若是找到就当即读取并运送给CPU处理；若是没有找到，就用相对慢的速度内存中读取并运送给CPU处理，同时把这个数据所在的数据块调入缓存中，可使得之后对整块数据的读取都从缓存中进行，没必要再调用内存。操作系统

这里只涉及到了一个高速缓存Cache,那为何后来有了缓存的分级呢？有了L1-Cache，L2-Cache，L3-Cache呢？要想弄懂这些首先咱们要明白咱们为何须要缓存？线程

由于CPU的频率太快了，快到内存/主存跟不上，这样在处理器时钟周期内，CPU经常须要等待主存，浪费资源，这样会使CPU花费很长时间等待数据到来或把数据写入内存。因此Cache的出现，是为了解决CPU运行处理速度与内存读写速度不匹配的矛盾（结构：CPU - > CACHE - > Main Memory - > SSD）

咱们先不说缓存为何须要分级？能够想一下，若是是你你想要一个什么样的缓存器/存储器，或者说你想设计一个什么样子的缓存Cache;速度快、体积小、空间大、能耗低、散热好、断电数据不丢失等等都是咱们想要的；但在现实中，咱们每每没法把全部需求都实现。

若是一个存储器的体积小，那它存储空间就会受到制约，所以命中率就会下降。
若是一个存储器离 CPU 较远，那么在传输过程当中必然会有延迟，所以传输速度也会降低。

你可能还会问，那干嘛不把内存放到 CPU 里？

若是你这么作的话，除了整个电路散热和体积会出现问题，服务器也没有办法作定制内存了。也就是说 CPU 在出厂时就决定了它的内存大小，若是你想换更大的内存，就要换 CPU，而组装定制化是你很是重要的诉求，这确定是不能接受的。

此外，在相同价格下，速度越快，那么它的能耗一般越高。能耗越高，发热量越大。

所以，咱们上面提到的需求是不可能被所有知足的，除非未来哪天存储技术有颠覆性的突破。

CPU分级缓存

综上所诉，咱们不能用一块存储器来解决全部的需求，那就必须把需求分级。

一种可行的方案，就是根据数据的使用频率使用不一样的存储器：高频使用的数据，读写越快越好，所以用最贵的材料，放到离 CPU 最近的位置；使用频率越低的数据，咱们放到离 CPU 越远的位置，用越便宜的材料。

这里咱们就增长了L1-Cache,L2-Cache,L3-Cache这三级缓存都是集成在CPU内的缓存；它们的做用都是做为CPU与主内存之间的高速数据缓冲区，L1最靠近CPU核心；L2其次；L3再次。运行速度方面：L1最快、L2次快、L3最慢；容量大小方面：L1最小、L2较大、L3最大。CPU会先在最快的L1中寻找须要的数据，找不到再去找次快的L2，还找不到再去找L3，L3都没有那就只能去内存找了。L一、L二、L3能够说是各有特色，下面咱们就分开来说一下。

在讲解以前咱们先回顾一下在上一节中对寄存器大体讲解了一下，那寄存器的位置在哪里呢?其实寄存器是距离CPU核心是最近的；

寄存器紧挨着 CPU 的控制单元和逻辑计算单元，它所使用的材料速度也是最快的。就像咱们前面讲到的，存储器的速度越快、能耗越高、产热越大，并且花费也是最贵的，所以数量不能不少。

寄存机的访问速度很是快，通常要求在半个 CPU 时钟周期内完成读写。好比一条要在 4 个周期内完成的指令，除了读写寄存器，还须要解码指令、控制指令执行和计算。若是寄存器的速度太慢，那 4 个周期就可能没法完成这条指令了。

L1-Cache

L1- 缓存在 CPU 中，相比寄存器，虽然它的位置距离 CPU 核心更远，但造价更低。一般 L1-Cache 大小在几十 Kb 到几百 Kb 不等，读写速度在 2~4 个 CPU 时钟周期。

L2-Cache

L2- 缓存也在 CPU 中，位置比 L1- 缓存距离 CPU 核心更远。它的大小比 L1-Cache 更大，具体大小要看 CPU 型号，有 2M 的，也有更小或者更大的，速度在 10~20 个 CPU 周期。

L3-Cache

L3- 缓存一样在 CPU 中，位置比 L2- 缓存距离 CPU 核心更远。大小一般比 L2-Cache 更大，读写速度在 20~60 个 CPU 周期。L3 缓存大小也是看型号的，好比 i9 CPU 有 512KB L1 Cache；有 2MB L2 Cache；有16MB L3 Cache。

内存

内存的主要材料是半导体硅，是插在主板上工做的。由于它的位置距离 CPU 有一段距离，因此须要用总线和 CPU 链接。由于内存有了独立的空间，因此体积更大，造价也比上面提到的存储器低得多。如今有的我的电脑上的内存是 16G，但有些服务器的内存能够到几个 T。内存速度大概在 200~300 个 CPU 周期之间。

SSD 和硬盘

SSD 也叫固态硬盘，结构和内存相似，可是它的优势在于断电后数据还在。内存、寄存器、缓存断电后数据就消失了。内存的读写速度比 SSD 大概快 10~1000 倍。之前还有一种物理读写的磁盘，咱们也叫做硬盘，它的速度比内存慢 100W 倍左右。由于它的速度太慢，如今已经逐渐被 SSD 替代。

当 CPU 须要内存中某个数据的时候，若是寄存器中有这个数据，咱们能够直接使用；若是寄存器中没有这个数据，咱们就要先查询 L1 缓存；L1 中没有，再查询 L2 缓存；L2 中没有再查询 L3 缓存；L3 中没有，再去内存中拿。

指令的预读

接下来咱们讨论下指令预读的问题。

以前咱们学过，CPU 顺序执行内存中的指令，CPU 执行指令的速度是很是快的，通常是 26 个 CPU 时钟周期；这节课，咱们学习了存储器分级策略，发现内存的读写速度实际上是很是慢的，大概有 200300 个时钟周期。

不知道你发现没有？这也产生了一个很是麻烦的问题：CPU 实际上是不能从内存中一条条读取指令再执行的，若是是这样作，那每执行一条指令就须要 200~300 个时钟周期了。

那么，这个问题如何处理呢？

这里我再多说一句，你在作业务开发 RPC 调用的时候，其实也会常常碰到这种状况，远程调用拖慢了总体执行效率，下面咱们一块儿讨论这类问题的解决方案。

一个解决办法就是 CPU 把内存中的指令预读几十条或者上百条到读写速度较快的 L1- 缓存中，由于 L1- 缓存的读写速度只有 2~4 个时钟周期，是能够跟上 CPU 的执行速度的。

这里又产生了另外一个问题：若是数据和指令都存储在 L1- 缓存中，若是数据缓存覆盖了指令缓存，就会产生很是严重的后果。所以，L1- 缓存一般会分红两个区域，一个是指令区，一个是数据区。

与此同时，又出现了一个问题，L1- 缓存分红了指令区和数据区，那么 L2/L3 需不须要这样分呢？其实，是不须要的。由于 L2 和 L3，不须要协助处理指令预读的问题。

缓存的命中率

接下来，还有一个重要的问题须要解决。就是 L1/L2/L3 加起来，缓存的命中率有多少？

所谓命中就是指在缓存中找到须要的数据。和命中相反的是穿透，也叫 miss，就是一次读取操做没有从缓存中找到对应的数据。

据统计，L1 缓存的命中率在 80% 左右，L1/L2/L3 加起来的命中率在 95% 左右。所以，CPU 缓存的设计仍是至关合理的。只有 5% 的内存读取会穿透到内存，95% 都能读取到缓存。这也是为何程序语言逐渐取消了让程序员操做寄存器的语法，由于缓存保证了很高的命中率，多余的优化意义不大，并且很容易出错。