程序员须要了解的硬核知识以内存

时间 2019-11-08

原文原文链接

咱们都知道，计算机是处理数据的设备，而数据的主要存储位置就是磁盘和内存，而且对于程序员来说，CPU 和内存是咱们必须了解的两个物理结构，它是你通向高阶程序员很重要的桥梁，那么本篇文章咱们就来介绍一下基本的内存知识。程序员

什么是内存

内存（Memory）是计算机中最重要的部件之一，它是程序与CPU进行沟通的桥梁。计算机中全部程序的运行都是在内存中进行的，所以内存对计算机的影响很是大，内存又被称为主存，其做用是存放 CPU 中的运算数据，以及与硬盘等外部存储设备交换的数据。只要计算机在运行中，CPU 就会把须要运算的数据调到主存中进行运算，当运算完成后CPU再将结果传送出来，主存的运行也决定了计算机的稳定运行。编程

内存的物理结构

在了解一个事物以前，你首先得先须要见过它，你才会有印象，才会有想要了解的兴趣，因此咱们首先须要先看一下什么是内存以及它的物理结构是怎样的。数组

内存的内部是由各类IC电路组成的，它的种类很庞大，可是其主要分为三种存储器缓存

随机存储器（RAM）：内存中最重要的一种，表示既能够从中读取数据，也能够写入数据。当机器关闭时，内存中的信息会 丢失。
只读存储器（ROM）：ROM 通常只能用于数据的读取，不能写入数据，可是当机器停电时，这些数据不会丢失。
高速缓存（Cache）：Cache 也是咱们常常见到的，它分为一级缓存（L1 Cache）、二级缓存（L2 Cache）、三级缓存（L3 Cache）这些数据，它位于内存和 CPU 之间，是一个读写速度比内存更快的存储器。当 CPU 向内存写入数据时，这些数据也会被写入高速缓存中。当 CPU 须要读取数据时，会直接从高速缓存中直接读取，固然，如须要的数据在Cache中没有，CPU会再去读取内存中的数据。

内存 IC 是一个完整的结构，它内部也有电源、地址信号、数据信号、控制信号和用于寻址的 IC 引脚来进行数据的读写。下面是一个虚拟的 IC 引脚示意图数据结构

图中 VCC 和 GND 表示电源，A0 - A9 是地址信号的引脚，D0 - D7 表示的是控制信号、RD 和 WR 都是好控制信号，我用不一样的颜色进行了区分，将电源链接到 VCC 和 GND 后，就能够对其余引脚传递 0 和 1 的信号，大多数状况下，+5V 表示1，0V 表示 0。学习

咱们都知道内存是用来存储数据，那么这个内存 IC 中能存储多少数据呢？D0 - D7 表示的是数据信号，也就是说，一次能够输入输出 8 bit = 1 byte 的数据。A0 - A9 是地址信号共十个，表示能够指定 00000 00000 - 11111 11111 共 2 的 10次方 = 1024个地址。每一个地址都会存放 1 byte 的数据，所以咱们能够得出内存 IC 的容量就是 1 KB。spa

若是咱们使用的是 512 MB 的内存，这就至关因而 512000（512 * 1000）个内存 IC。固然，一台计算机不太可能有这么多个内存 IC ，然而，一般状况下，一个内存 IC 会有更多的引脚，也就能存储更多数据。操作系统

内存的读写过程

让咱们把关注点放在内存 IC 对数据的读写过程上来吧！咱们来看一个对内存IC 进行数据写入和读取的模型设计

来详细描述一下这个过程，假设咱们要向内存 IC 中写入 1byte 的数据的话，它的过程是这样的：3d

首先给 VCC 接通 +5V 的电源，给 GND 接通 0V 的电源，使用 A0 - A9 来指定数据的存储场所，而后再把数据的值输入给 D0 - D7 的数据信号，并把 WR（write）的值置为 1，执行完这些操做后，便可以向内存 IC 写入数据
读出数据时，只须要经过 A0 - A9 的地址信号指定数据的存储场所，而后再将 RD 的值置为 1 便可。
图中的 RD 和 WR 又被称为控制信号。其中当WR 和 RD 都为 0 时，没法进行写入和读取操做。

内存的现实模型

为了便于记忆，咱们把内存模型映射成为咱们现实世界的模型，在现实世界中，内存的模型很想咱们生活的楼房。在这个楼房中，1层能够存储一个字节的数据，楼层号就是地址，下面是内存和楼层整合的模型图

咱们知道，程序中的数据不只只有数值，还有数据类型的概念，从内存上来看，就是占用内存大小（占用楼层数）的意思。即便物理上强制以 1 个字节为单位来逐一读写数据的内存，在程序中，经过指定其数据类型，也能实现以特定字节数为单位来进行读写。

下面是一个以特定字节数为例来读写指令字节的程序的示例

// 定义变量
char a;
short b;
long c;

// 变量赋值
a = 123;
b = 123;
c = 123;
复制代码

咱们分别声明了三个变量 a,b,c ，并给每一个变量赋上了相同的 123，这三个变量表示内存的特定区域。经过变量，即便不指定物理地址，也能够直接完成读写操做，操做系统会自动为变量分配内存地址。

这三个变量分别表示 1 个字节长度的 char，2 个字节长度的 short，表示4 个字节的 long。所以，虽然数据都表示的是 123，可是其存储时所占的内存大小是不同的。以下所示

这里的 123 都没有超过每一个类型的最大长度，因此 short 和 long 类型为所占用的其余内存空间分配的数值是0，这里咱们采用的是低字节序列的方式存储

低字节序列：将数据低位存储在内存低位地址。

高字节序列：将数据的高位存储在内存地位的方式称为高字节序列。

内存的使用

指针

指针是 C 语言很是重要的特征，指针也是一种变量，只不过它所表示的不是数据的值，而是内存的地址。经过使用指针，能够对任意内存地址的数据进行读写。

在了解指针读写的过程前，咱们先须要了解如何定义一个指针，和普通的变量不一样，在定义指针时，咱们一般会在变量名前加一个 * 号。例如咱们能够用指针定义以下的变量

char *d; // char类型的指针 d 定义
short *e; // short类型的指针 e 定义
long *f; // long类型的指针 f 定义
复制代码

咱们以32位计算机为例，32位计算机的内存地址是 4 字节，在这种状况下，指针的长度也是 32 位。然而，变量 d e f 却表明了不一样的字节长度，这是为何呢？

实际上，这些数据表示的是从内存中一次读取的字节数，好比 d e f 的值都为 100，那么使用 char 类型时就可以从内存中读写 1 byte 的数据，使用 short 类型就可以从内存读写 2 字节的数据，使用 long 就可以读写 4 字节的数据，下面是一个完整的类型字节表

类型	32位	64位
char	1	1
short int	2	2
int	4	4
unsigned int	4	4
float	4	4
double	8	8
long	4	8
long long	8	8
unsigned long	4	8

咱们能够用图来描述一下这个读写过程

数组是内存的实现

数组是指多个相同的数据类型在内存中连续排列的一种形式。做为数组元素的各个数据会经过下标编号来区分，这个编号也叫作索引，如此一来，就能够对指定索引的元素进行读写操做。

首先先来认识一下数组，咱们仍是用 char、short、long 三种元素来定义数组，数组的元素用[value] 扩起来，里面的值表明的是数组的长度，就像下面的定义

char g[100];
short h[100];
long i[100];
复制代码

数组定义的数据类型，也表示一次可以读写的内存大小，char 、short 、long 分别以 1 、2 、4 个字节为例进行内存的读写。

数组是内存的实现，数组和内存的物理结构彻底一致，尤为是在读写1个字节的时候，当字节数超过 1 时，只能经过逐个字节来读取，下面是内存的读写过程

数组是咱们学习的第一个数据结构，咱们都知道数组的检索效率是比较快的，至于数组的检索效率为何这么快并非咱们这篇文章讨论的重点。

栈和队列

咱们上面提到数组是内存的一种实现，使用数组可以使编程更加高效，下面咱们就来认识一下其余数据结构，经过这些数据结构也能够操做内存的读写。

栈

栈（stack）是一种很重要的数据结构，栈采用 LIFO（Last In First Out）即后入先出的方式对内存进行操做。它就像一个大的收纳箱，你能够往里面放相同类型的东西，好比书，最早放进收纳箱的书在最下面，最后放进收纳箱的书在最上面，若是你想拿书的话，必须从最上面开始取，不然是没法取出最下面的书籍的。

栈的数据结构就是这样，你把书籍压入收纳箱的操做叫作压入（push），你把书籍从收纳箱取出的操做叫作弹出（pop），它的模型图大概是这样

入栈至关因而增长操做，出栈至关因而删除操做，只不过叫法不同。栈和内存不一样，它不须要指定元素的地址。它的大概使用以下

// 压入数据
Push(123);
Push(456);
Push(789);

// 弹出数据
j = Pop();
k = Pop();
l = Pop();
复制代码

在栈中，LIFO 方式表示栈的数组中所保存的最后面的数据（Last In）会被最早读取出来（First On）。

队列

队列和栈很类似但又不一样，相同之处在于队列也不须要指定元素的地址，不一样之处在于队列是一种 先入先出(First In First Out) 的数据结构。队列在咱们生活中的使用很像是咱们去景区排队买票同样，第一个排队的人最早买到票，以此类推，俗话说: 先到先得。它的使用以下

// 往队列中写入数据
EnQueue(123);
EnQueue(456);
EnQueue(789);

// 从队列中读出数据
m = DeQueue();
n = DeQueue();
o = DeQueue();
复制代码

向队列中写入数据称为 EnQueue()入列，从队列中读出数据称为DeQueue()。

与栈相对，FIFO 的方式表示队列中最早所保存的数据会优先被读取出来。

队列的实现通常有两种：顺序队列 和 循环队列，咱们上面的事例使用的是顺序队列，那么下面咱们看一下循环队列的实现方式

环形缓冲区

循环队列通常是以环状缓冲区(ring buffer)的方式实现的，它是一种用于表示一个固定尺寸、头尾相连的缓冲区的数据结构，适合缓存数据流。假如咱们要用 6 个元素的数组来实现一个环形缓冲区，这时能够从起始位置开始有序的存储数据，而后再按照存储时的顺序把数据读出。在数组的末尾写入数据后，后一个数据就会从缓冲区的头开始写。这样，数组的末尾和开头就链接了起来。

链表

下面咱们来介绍一下链表和 二叉树，它们都是能够不用考虑索引的顺序就能够对元素进行读写的方式。经过使用链表，能够高效的对数据元素进行添加 和 删除操做。而经过使用二叉树，则能够更高效的对数据进行检索。

在实现数组的基础上，除了数据的值以外，经过为其附带上下一个元素的索引，便可实现链表。数据的值和下一个元素的地址（索引）就构成了一个链表元素，以下所示

对链表的添加和删除都是很是高效的，咱们来叙述一下这个添加和删除的过程，假如咱们要删除地址为 p[2] 的元素，链表该如何变化呢？

咱们能够看到，删除地址为 p[2] 的元素后，直接将链表剔除，并把 p[2] 前一个位置的元素 p[1] 的指针域指向 p[2] 下一个链表元素的数据区便可。

那么对于新添加进来的链表，须要肯定插入位置，好比要在 p[2] 和 p[3] 之间插入地址为 p[6] 的元素，须要将 p[6] 的前一个位置 p[2] 的指针域改成 p[6] 的地址，而后将 p[6] 的指针域改成 p[3] 的地址便可。

链表的添加不涉及到数据的移动，因此链表的添加和删除很快，而数组的添加设计到数据的移动，因此比较慢，一般状况下，使用数组来检索数据，使用链表来进行添加和删除操做。

二叉树

二叉树也是一种检索效率很是高的数据结构，二叉树是指在链表的基础上往数组追加元素时，考虑到数组的大小关系，将其分红左右两个方向的表现形式。假如咱们把 50 这个值保存到了数组中，那么，若是接下来要进行值写入的话，就须要和50比较，肯定谁大谁小，比50数值大的放右边，小的放左边，下图是二叉树的比较示例

二叉树是由链表发展而来，所以二叉树在追加和删除元素方面也是一样有效的。

这一切的演变都是之内存为基础的。

下面为本身作个宣传，欢迎关注公众号 Java建设者，号主是Java技术栈，热爱技术，喜欢阅读，热衷于分享和总结，但愿能把每一篇好文章分享给成长道路上的你。公号回复002，有你想要的资源。

文章参考：

www.computerhope.com/jargon/m/me…

baike.baidu.com/item/队列/145…

baike.baidu.com/item/栈/1280…

baike.baidu.com/item/环形缓冲器/…

《程序是怎样跑起来的》第四章