在多线程并发环境下,常常出现一些意想不到的错误,例如数值的累加,错的缘由可能涉及到计算机原理以及JAVA方面的一些知识。程序员
下面咱们就先从CPU的多级缓存开始提及;缓存
缓存存在的意义:服务器
CPU缓存存在的意义分两点(局部性原理):多线程
咱们先来认识一下总体结构,看一张图片,以下:并发
CPU Core : CPU核心ide
Cache : 高速缓存,数据的读取和存储都通过此高速缓存学习
Main Memory : 内存/主存优化
缓存的工做原理是当CPU要读取一个数据时,首先从缓存中查找,若是找到就当即读取并运送给CPU处理;若是没有找到,就用相对慢的速度内存中读取并运送给CPU处理,同时把这个数据所在的数据块调入缓存中,可使得之后对整块数据的读取都从缓存中进行,没必要再调用内存。操作系统
这里只涉及到了一个高速缓存Cache,那为何后来有了缓存的分级呢?有了L1-Cache,L2-Cache,L3-Cache呢?要想弄懂这些首先咱们要明白咱们为何须要缓存?线程
由于CPU的频率太快了,快到内存/主存跟不上,这样在处理器时钟周期内,CPU经常须要等待主存,浪费资源,这样会使CPU花费很长时间等待数据到来或把数据写入内存。因此Cache的出现,是为了解决CPU运行处理速度与内存读写速度不匹配的矛盾(结构:CPU - > CACHE - > Main Memory - > SSD)
咱们先不说缓存为何须要分级?能够想一下,若是是你你想要一个什么样的缓存器/存储器,或者说你想设计一个什么样子的缓存Cache;速度快、体积小、空间大、能耗低、散热好、断电数据不丢失等等都是咱们想要的;但在现实中,咱们每每没法把全部需求都实现。
你可能还会问,那干嘛不把内存放到 CPU 里?
若是你这么作的话,除了整个电路散热和体积会出现问题,服务器也没有办法作定制内存了。也就是说 CPU 在出厂时就决定了它的内存大小,若是你想换更大的内存,就要换 CPU,而组装定制化是你很是重要的诉求,这确定是不能接受的。
此外,在相同价格下,速度越快,那么它的能耗一般越高。能耗越高,发热量越大。
所以,咱们上面提到的需求是不可能被所有知足的,除非未来哪天存储技术有颠覆性的突破。
综上所诉,咱们不能用一块存储器来解决全部的需求,那就必须把需求分级。
一种可行的方案,就是根据数据的使用频率使用不一样的存储器:高频使用的数据,读写越快越好,所以用最贵的材料,放到离 CPU 最近的位置;使用频率越低的数据,咱们放到离 CPU 越远的位置,用越便宜的材料。
这里咱们就增长了L1-Cache,L2-Cache,L3-Cache这三级缓存都是集成在CPU内的缓存;它们的做用都是做为CPU与主内存之间的高速数据缓冲区,L1最靠近CPU核心;L2其次;L3再次。运行速度方面:L1最快、L2次快、L3最慢;容量大小方面:L1最小、L2较大、L3最大。CPU会先在最快的L1中寻找须要的数据,找不到再去找次快的L2,还找不到再去找L3,L3都没有那就只能去内存找了。L一、L二、L3能够说是各有特色,下面咱们就分开来说一下。
在讲解以前咱们先回顾一下在上一节中对寄存器大体讲解了一下,那寄存器的位置在哪里呢?其实寄存器是距离CPU核心是最近的;
寄存器紧挨着 CPU 的控制单元和逻辑计算单元,它所使用的材料速度也是最快的。就像咱们前面讲到的,存储器的速度越快、能耗越高、产热越大,并且花费也是最贵的,所以数量不能不少。
寄存机的访问速度很是快,通常要求在半个 CPU 时钟周期内完成读写。好比一条要在 4 个周期内完成的指令,除了读写寄存器,还须要解码指令、控制指令执行和计算。若是寄存器的速度太慢,那 4 个周期就可能没法完成这条指令了。
L1-Cache
L1- 缓存在 CPU 中,相比寄存器,虽然它的位置距离 CPU 核心更远,但造价更低。一般 L1-Cache 大小在几十 Kb 到几百 Kb 不等,读写速度在 2~4 个 CPU 时钟周期。
L2-Cache
L2- 缓存也在 CPU 中,位置比 L1- 缓存距离 CPU 核心更远。它的大小比 L1-Cache 更大,具体大小要看 CPU 型号,有 2M 的,也有更小或者更大的,速度在 10~20 个 CPU 周期。
L3-Cache
L3- 缓存一样在 CPU 中,位置比 L2- 缓存距离 CPU 核心更远。大小一般比 L2-Cache 更大,读写速度在 20~60 个 CPU 周期。L3 缓存大小也是看型号的,好比 i9 CPU 有 512KB L1 Cache;有 2MB L2 Cache; 有16MB L3 Cache。
内存
内存的主要材料是半导体硅,是插在主板上工做的。由于它的位置距离 CPU 有一段距离,因此须要用总线和 CPU 链接。由于内存有了独立的空间,因此体积更大,造价也比上面提到的存储器低得多。如今有的我的电脑上的内存是 16G,但有些服务器的内存能够到几个 T。内存速度大概在 200~300 个 CPU 周期之间。
SSD 和硬盘
SSD 也叫固态硬盘,结构和内存相似,可是它的优势在于断电后数据还在。内存、寄存器、缓存断电后数据就消失了。内存的读写速度比 SSD 大概快 10~1000 倍。之前还有一种物理读写的磁盘,咱们也叫做硬盘,它的速度比内存慢 100W 倍左右。由于它的速度太慢,如今已经逐渐被 SSD 替代。
当 CPU 须要内存中某个数据的时候,若是寄存器中有这个数据,咱们能够直接使用;若是寄存器中没有这个数据,咱们就要先查询 L1 缓存;L1 中没有,再查询 L2 缓存;L2 中没有再查询 L3 缓存;L3 中没有,再去内存中拿。
接下来咱们讨论下指令预读的问题。
以前咱们学过,CPU 顺序执行内存中的指令,CPU 执行指令的速度是很是快的,通常是 26 个 CPU 时钟周期;这节课,咱们学习了存储器分级策略,发现内存的读写速度实际上是很是慢的,大概有 200300 个时钟周期。
不知道你发现没有?这也产生了一个很是麻烦的问题:CPU 实际上是不能从内存中一条条读取指令再执行的,若是是这样作,那每执行一条指令就须要 200~300 个时钟周期了。
那么,这个问题如何处理呢?
这里我再多说一句,你在作业务开发 RPC 调用的时候,其实也会常常碰到这种状况,远程调用拖慢了总体执行效率,下面咱们一块儿讨论这类问题的解决方案。
一个解决办法就是 CPU 把内存中的指令预读几十条或者上百条到读写速度较快的 L1- 缓存中,由于 L1- 缓存的读写速度只有 2~4 个时钟周期,是能够跟上 CPU 的执行速度的。
这里又产生了另外一个问题:若是数据和指令都存储在 L1- 缓存中,若是数据缓存覆盖了指令缓存,就会产生很是严重的后果。所以,L1- 缓存一般会分红两个区域,一个是指令区,一个是数据区。
与此同时,又出现了一个问题,L1- 缓存分红了指令区和数据区,那么 L2/L3 需不须要这样分呢?其实,是不须要的。由于 L2 和 L3,不须要协助处理指令预读的问题。
接下来,还有一个重要的问题须要解决。就是 L1/L2/L3 加起来,缓存的命中率有多少?
所谓命中就是指在缓存中找到须要的数据。和命中相反的是穿透,也叫 miss,就是一次读取操做没有从缓存中找到对应的数据。
据统计,L1 缓存的命中率在 80% 左右,L1/L2/L3 加起来的命中率在 95% 左右。所以,CPU 缓存的设计仍是至关合理的。只有 5% 的内存读取会穿透到内存,95% 都能读取到缓存。 这也是为何程序语言逐渐取消了让程序员操做寄存器的语法,由于缓存保证了很高的命中率,多余的优化意义不大,并且很容易出错。