zval _ 引用计数 _ 变量分离 _ 写时拷贝

时间 2019-12-07

原文原文链接

zval、引用计数、变量分离、写时拷贝
咱们一步步来理解
一、php语言特性
PHP是脚本语言，所谓脚本语言，就是说PHP并非独立运行的，要运行PHP代码须要PHP解析器，用户编写的PHP代码最终都会被PHP解析器解析执行
PHP的执行是经过Zend engine（ZE, Zend引擎），ZE是用C编写的
用户编写的PHP代码最终都会被翻译成PHP的虚拟机ZE的虚拟指令（OPCODES）来执行
也就说最终会被翻译成一条条的指令
既然这样，有什么结果和你预想的不同，查看php源码是最直接最有效的php

二、php变量的存储结构
在PHP中，全部的变量都是用一个结构zval结构来保存的，在Zend/zend.h中能够看到zval的定义：算法

zval结构包括：
① value —— 值，是真正保存数据的关键部分，定义为一个联合体(union)
② type —— 用来储存变量的类型
③ is_ref —— 下面介绍
④ refcount —— 下面介绍数组

声明一个变量
$addr="北京";
PHP内部都是使用zval来表示变量的，那对于上面的脚本，ZE是如何把addr和内部的zval结构联系起来的呢？
变量都是有名字的（本例中变量名为addr）
而zval中并无相应的字段来体现变量名。PHP内部确定有一个机制，来实现变量名到zval的映射
在PHP中，全部的变量都会存储在一个数组中（确切的说是hash table）
当你建立一个变量的时候，PHP会为这个变量分配一个zval，填入相应的信息，而后将这个变量的名字和指向这个zval的指针填入一个数组中。当你获取这个变量的时候，PHP会经过查找这个数组，取得对应的zval服务器

注意：数组和对象这类复合类型在生成zval时，会为每一个单元生成一个zval函数

三、咱们常常说每一个变量都有一个内存地址，那这个zval和变量的内存地址，这俩有什么关系吗？
定义一个变量会开辟一块内存，这块内存比如一个盒子，盒子里放了zval，zval里保存了变量的相关信息，须要开辟多大的内存，是由zval所占空间大小决定的
zval是内存对象，垃圾回收的时候会把zval和内存地址（盒子）分别释放掉测试

四、引用计数、变量分离、写时拷贝
zval中的refcount和is_ref尚未介绍，咱们知道PHP是一个长时间运行的服务器端脚本。那么对于它来讲，效率和资源占用率是一个很重要的衡量标准，也就是说，PHP必须尽可能减小内存占用率。考虑下面这段代码：spa

第一行代码建立了一个字符串变量，申请了一个大小为9字节的内存，保存了字符串“laruence”和一个NULL(\0)的结尾
第二行定义了一个新的字符串变量，并将变量var的值“复制”给这个新的变量
第三行unset了变量var翻译

这样的代码是很常见的，若是PHP对于每个变量赋值都从新分配内存，copy数据的话，那么上面的这段代码就要申请18个字节的内存空间，为了申请新的内存，还须要cpu执行某些计算，这固然会加剧cpu的负载
而咱们也很容易看出来，上面的代码其实根本没有必要申请两份空间，当第三句执行后，$var被释放了，咱们刚才的设想（申请18个字节内存空间）忽然变的很滑稽，此次复制显得好多余。若是早知道$var不用了，直接让$var_dup用$var的内存不就好了，还复制干吗？若是你以为9个字节没什么，那设想下若是$var是个10M的文件内容，或者20M，是否是咱们的计算机资源消耗的有点冤枉呢？
呵呵，PHP的开发者也看出来了：debug

刚才说了，PHP中的变量是用一个存储在symbol_table中的符号名，对应一个zval来实现的，好比对于上面的第一行代码，会在symbol_table中存储一个值“var”，对应的有一个指针指向一个zval结构，变量值“laruence”保存在这个zval中，因此不难想象，对于上面的代码来讲，咱们彻底可让“var”和“var_dup”对应的指针都指向同一个zval就能够了（额，鸟哥一会说hash table，一会说symbol_table，暂且理解为symbol_table是hash table的子集）指针

PHP也是这样作的，这个时候就须要介绍一下zval结构中的refcount字段了
refcount，引用计数，记录了当前的zval被引用的次数（这里的引用并非真正的 & ，而是有几个变量指向它）
好比对于代码:

第一行，建立了一个整形变量，变量值是1。此时保存整形1的这个zval的refcount为1
第二行，建立了一个新的整形变量（经过赋值的方式），变量也指向刚才建立的zval，并将这个zval的refcount加1，此时这个zval的refcount为2
因此，这个时候（经过值传递的方式赋值给别的变量），并无产生新的zval，两个变量指向同一zval，经过一个计数器来共用zval及内存地址，以达到节省内存空间的目的
当一个变量被第一次建立的时候，它对应的zval结构的refcount的值会被初始化为1，由于只有这一个变量在用它。可是当你把这个变量赋值给别的变量时，refcount属性便会加1变成2，由于如今有两个变量在用这个zval结构了

PHP提供了一个函数能够帮助咱们了解这个过程debug_zval_dump

输出：
long(1) refcount(2)
long(1) refcount(3)
若是你奇怪，var的refcount应该是1啊？
咱们知道，对于简单变量，PHP是以传值的形式传参数的。也就是说，当执行debug_zval_dump($var)的时候，$var会以传值的方式传递给debug_zval_dump，也就是会致使var的refcount加1，因此只要能看到，当变量赋值给一个变量之后，能致使zval的refcount加1这个结果便可

如今咱们回头看上面的代码，当执行了最后一行unset($var)之后，会发生什么呢？
unset($var)的时候，它删除符号表里的$var的信息，准备清理它对应的zval及内存空间，这时它发现$var对应的zval结构的refcount值是2，也就是说，还有另一个变量在一块儿用着这个zval，因此unset只需把这个zval的refcount减去1就好了
上代码：

输出：
string(8) "laruence" refcount(2)

可是，对于下面的代码呢？

很明显在这段代码执行之后，$var_dup的值应该仍是“laruence”，那么这又是怎么实现的呢？
这就是PHP的copy on write机制（简称COW）：
PHP在修改一个变量之前，会首先查看这个变量的refcount，若是refcount大于1，PHP就会执行一个分离的过程（在Zend引擎中，分离是破坏一个引用对的过程）
对于上面的代码，当执行到第三行的时候，PHP发现$var想要改变，而且它指向的zval的refcount大于1，那么PHP就会复制一个新的zval出来，改变其值，将改变的变量指向新的zval（哪一个变量指向新复制的zval其实已经无所谓了），并将原zval的refcount减1，并修改symbol_table里该变量的指针，使得$var和$var_dup分离(Separation)。这个机制就是所谓的copy on write（写时复制，这里的写包括普通变量的修改及数组对象里的增长、删除单元操做）
若是了解了is_ref以后，上面说的并不严谨

上代码测试：

输出：
long(1) refcount(2)
string(8) "laruence" refcount(2)

如今咱们知道，当使用变量复制的时候，PHP内部并非真正的复制，而是采用指向相同的zval结构来节约开销。那么，对于PHP中的引用，又是如何实现呢？

这段代码结束之后，$var也会被间接的修改成1，这个过程称做（change on write：写时改变）
那么ZE是怎么知道，此次的复制不须要Separation呢？
这个时候就要用到zval中的is_ref字段了：
对于上面的代码，当第二行执行之后，$var所表明的zval的refcount变为2，而且设置is_ref为1
到第三行的时候，PHP先检查var_ref对应的zval的is_ref字段（is_ref 表示该zval是否被&引用，仅表示真或假，就像开关的开与关同样，zval的初始化状况下为0，即非引用），若是为1，则不分离，直接更改（不然须要执行刚刚提到的zval分离），更改共享的zval实际上也间接更改了$var的值，由于引擎想全部的引用变量都看到这一改变
php源码作了这样一个判断，大致逻辑示意以下：

若是这个zval中的if_ref为1（即被引用），或者该zval引用计数小于2
任何一种方式：都不会进行分离

尽管已经存在写时复制和写时改变，但仍然还存在一些不能经过is_ref和refcount来解决的问题
对于以下的代码，又会怎样呢？

这里$var、$var_dup、$var_ref三个变量将共用一个zval结构（其实这是不可能的，一个zval不可能既被&，又被指向），有两个属于change-on-write组合（$var和$var_ref），有两个属于copy-on-write组合（$var和$var_dup），那is_ref和refcount该怎样工做，才能正确的处理好这段复杂的关系呢？
答案是不可能！在这种状况下，变量的值必须分离成两份彻底独立的存在
当执行第二行代码的时候，和前面讲过的同样，$var_dup 和 $var 指向相同的zval， refcount为2
当执行第三行的时候，PHP发现要操做的zval的refcount大于1，则PHP会执行Separation（也就是说php将一个zval的is_ref从0设为1 以前，固然此时refcount尚未增长，会看该zval的refcount，若是refcount>1，则会分离）, 将$var_dup分离出去，并将$var和$var_ref作change on write关联。也就是，refcount=2, is_ref=1;
因此内存会给变量var_dup 分配出一个新的zval，类型与值同 $var和$var_ref指向的zval同样，是新分配出来的，尽管他们拥有一样的值，可是必须经过两个zval来实现。试想一下，若是三者指向同一个zval的话，改边 $var_dup 的值，那么 $var和$var_ref 也会受到影响，这样就乱套了
图解：

下面的这段代码在内核中一样会产生歧义，因此须要强制复制！

也就是说一个zval不会既被引用，又被指向，必须分离

基于这样的分析，咱们就可让debug_zval_dump出refcount为1的结果来：

输出：
string(8) "laruence" refcount(1)

为何结果是refcount(1)呢
debug_zval_dump()中参数是引用的话，refcount永远为1

小结：

这两段代码在执行的时候是这样的逻辑：
PHP先看变量指向的zval是否被引用，若是是引用，则再也不产生新的zval
甭管哪一个变量引用了它，好比有个变量$a被引用了，$b=&$a，就算本身引用本身$a=&$a，$a所指向的zval都不会被复制，改变其中一个变量的值，另外一个值也被改变（写时改变）
若是is_ref为0且refcount大于1，改变其中一个变量时，复制新的zval（写时复制）

五、垃圾回收概述
refcount和is_ref这两个家伙与垃圾回收有关（garbage collection简称gc）
PHP的垃圾回收全靠这俩字段了。其中refcount表示当前有几个变量引用此zval，而is_ref表示当前zval是否被按引用引用

PHP5.2中的垃圾回收算法 —— Reference Counting
PHP5.2中使用的内存回收算法是大名鼎鼎的Reference Counting，这个算法中文翻译叫作“引用计数”，其思想很是直观和简洁：为每一个内存对象分配一个计数器，当一个内存对象创建时计数器初始化为1（此时老是有一个变量引用此对象），之后每有一个新变量引用此内存对象，则计数器加1，而每当减小一个引用此内存对象的变量则计数器减1，任何关联到某个zval的变量离开它的做用域（好比：函数执行结束），或者把变量unset掉，refcount也会减1
当垃圾回收机制运做的时候，将全部计数器为0的内存对象销毁并回收其占用的内存。而PHP中内存对象就是zval，计数器就是refcount
Reference Counting简单直观，实现方便，但却存在一个致命的缺陷，就是容易形成内存泄露（具体缘由百度）

因为Reference Counting的这个缺陷，PHP5.3改进了垃圾回收算法
PHP5.3的垃圾回收算法仍然以引用计数为基础，可是再也不是使用简单计数做为回收准则，而是使用了一种同步回收算法，这个算法由IBM的工程师在论文Concurrent Cycle Collection in Reference Counted Systems中提出

这里只须要了解垃圾回收是以引用计数为基础的就能够