文章来源:PHP开发学习门户php
地址:http://www.phpthinking.com/archives/636程序员
PHP是一门托管型语言,在PHP编程中程序员不须要手工处理内存资源的分配与释放(使用C编写PHP或Zend扩展除外),这就意味着PHP自己实现了垃圾回收机制(Garbage Collection)。如今若是去PHP官方网站能够看到,目前PHP5的两个分支版本PHP5.2和PHP5.3是分别更新的,这是由于许多项目仍然使用5.2版本的PHP,而5.3版本对5.2并非彻底兼容。PHP5.3在PHP5.2的基础上作了诸多改进,其中垃圾回收算法就属于一个比较大的改变。本文将分别讨论PHP5.2和PHP5.3的垃圾回收机制,并讨论这种演化和改进对于程序员编写PHP的影响以及要注意的问题。算法
垃圾回收说究竟是对变量及其所关联内存对象的操做,因此在讨论PHP的垃圾回收机制以前,先简要介绍PHP中变量及其内存对象的内部表示(其C源代码中的表示)。编程
PHP官方文档中将PHP中的变量划分为两类:标量类型和复杂类型。标量类型包括布尔型、整型、浮点型和字符串;复杂类型包括数组、对象和资源;还有一个NULL比较特殊,它不划分为任何类型,而是单独成为一类。数组
全部这些类型,在PHP内部统一用一个叫作zval的结构表示,在PHP源代码中这个结构名称为“_zval_struct”。zval的具体定义在PHP源代码的“Zend/zend.h”文件中,下面是相关代码的摘录。服务器
typedef
union
_zvalue_value {
long
lval;
/* long value */
double
dval;
/* double value */
struct
{
char
*val;
int
len;
} str;
HashTable *ht;
/* hash table value */
zend_object_value obj;
} zvalue_value;
struct
_zval_struct {
/* Variable information */
zvalue_value value;
/* value */
zend_uint refcount__gc;
zend_uchar type;
/* active type */
zend_uchar is_ref__gc;
};
|
其中联合体“_zvalue_value”用于表示PHP中全部变量的值,这里之因此使用union,是由于一个zval在一个时刻只能表示一种类型的变量。能够看到_zvalue_value中只有5个字段,可是PHP中算上NULL有8种数据类型,那么PHP内部是如何用5个字段表示8种类型呢?这算是PHP设计比较巧妙的一个地方,它经过复用字段达到了减小字段的目的。例如,在PHP内部布尔型、整型及资源(只要存储资源的标识符便可)都是经过lval字段存储的;dval用于存储浮点型;str存储字符串;ht存储数组(注意PHP中的数组实际上是哈希表);而obj存储对象类型;若是全部字段所有置为0或NULL则表示PHP中的NULL,这样就达到了用5个字段存储8种类型的值。ide
而当前zval中的value(value的类型便是_zvalue_value)到底表示那种类型,则由“_zval_struct”中的type肯定。_zval_struct便是zval在C语言中的具体实现,每一个zval表示一个变量的内存对象。除了value和type,能够看到_zval_struct中还有两个字段refcount__gc和is_ref__gc,从其后缀就能够判定这两个家伙与垃圾回收有关。没错,PHP的垃圾回收全靠这俩字段了。其中refcount__gc表示当前有几个变量引用此zval,而is_ref__gc表示当前zval是否被按引用引用,这话听起来很拗口,这和PHP中zval的“Write-On-Copy”机制有关,因为这个话题不是本文重点,所以这里再也不详述,读者只需记住refcount__gc这个字段的做用便可。函数
PHP5.2中使用的内存回收算法是大名鼎鼎的Reference Counting,这个算法中文翻译叫作“引用计数”,其思想很是直观和简洁:为每一个内存对象分配一个计数器,当一个内存对象创建时计数器初始化为1(所以此时老是有一个变量引用此对象),之后每有一个新变量引用此内存对象,则计数器加1,而每当减小一个引用此内存对象的变量则计数器减1,当垃圾回收机制运做的时候,将全部计数器为0的内存对象销毁并回收其占用的内存。而PHP中内存对象就是zval,而计数器就是refcount__gc。性能
例以下面一段PHP代码演示了PHP5.2计数器的工做原理(计数器值经过xdebug获得):学习
<?php
$val1
= 100;
//zval(val1).refcount_gc = 1;
$val2
=
$val1
;
//zval(val1).refcount_gc = 2,zval(val2).refcount_gc = 2
//(由于是Write on copy,当前val2与val1共同引用一个zval)
$val2
= 200;
//zval(val1).refcount_gc = 1,zval(val2).refcount_gc = 1
//(此处val2新建了一个zval)
unset(
$val1
);
//zval(val1).refcount_gc = 0
//($val1引用的zval不再可用,会被GC回收)
?>
|
Reference Counting简单直观,实现方便,但却存在一个致命的缺陷,就是容易形成内存泄露。不少朋友可能已经意识到了,若是存在循环引用,那么Reference Counting就可能致使内存泄露。例以下面的代码:
<?php
$a
=
array
();
$a
[] = &
$a
;
unset(
$a
);
?>
|
这段代码首先创建了数组a,而后让a的第一个元素按引用指向a,这时a的zval的refcount就变为2,而后咱们销毁变量a,此时a最初指向的zval的refcount为1,可是咱们再也没有办法对其进行操做,由于其造成了一个循环自引用,以下图所示:
其中灰色部分表示已经不复存在。因为a以前指向的zval的refcount为1(被其HashTable的第一个元素引用),这个zval就不会被GC销毁,这部份内存就泄露了。
这里特别要指出的是,PHP是经过符号表(Symbol Table)存储变量符号的,全局有一个符号表,而每一个复杂类型如数组或对象有本身的符号表,所以上面代码中,a和a[0]是两个符号,可是a储存在全局符号表中,而a[0]储存在数组自己的符号表中,且这里a和a[0]引用同一个zval(固然符号a后来被销毁了)。但愿读者朋友注意分清符号(Symbol)的zval的关系。
在PHP只用于作动态页面脚本时,这种泄露也许不是很要紧,由于动态页面脚本的生命周期很短,PHP会保证当脚本执行完毕后,释放其全部资源。可是PHP发展到目前已经不只仅用做动态页面脚本这么简单,若是将PHP用在生命周期较长的场景中,例如自动化测试脚本或deamon进程,那么通过屡次循环后积累下来的内存泄露可能就会很严重。这并非我在耸人听闻,我曾经实习过的一个公司就经过PHP写的deamon进程来与数据存储服务器交互。
因为Reference Counting的这个缺陷,PHP5.3改进了垃圾回收算法。
PHP5.3的垃圾回收算法仍然以引用计数为基础,可是再也不是使用简单计数做为回收准则,而是使用了一种同步回收算法,这个算法由IBM的工程师在论文Concurrent Cycle Collection in Reference Counted Systems中提出。
这个算法可谓至关复杂,从论文29页的数量我想你们也能看出来,因此我不打算(也没有能力)完整论述此算法,有兴趣的朋友能够阅读上面的提到的论文(强烈推荐,这篇论文很是精彩)。
我在这里,只能大致描述一下此算法的基本思想。
首先PHP会分配一个固定大小的“根缓冲区”,这个缓冲区用于存放固定数量的zval,这个数量默认是10,000,若是须要修改则须要修改源代码Zend/zend_gc.c中的常量GC_ROOT_BUFFER_MAX_ENTRIES而后从新编译。
由上文咱们能够知道,一个zval若是有引用,要么被全局符号表中的符号引用,要么被其它表示复杂类型的zval中的符号引用。所以在zval中存在一些可能根(root)。这里咱们暂且不讨论PHP是如何发现这些可能根的,这是个很复杂的问题,总之PHP有办法发现这些可能根zval并将它们投入根缓冲区。
当根缓冲区满额时,PHP就会执行垃圾回收,此回收算法以下:
一、对每一个根缓冲区中的根zval按照深度优先遍历算法遍历全部能遍历到的zval,并将每一个zval的refcount减1,同时为了不对同一zval屡次减1(由于可能不一样的根能遍历到同一个zval),每次对某个zval减1后就对其标记为“已减”。
二、再次对每一个缓冲区中的根zval深度优先遍历,若是某个zval的refcount不为0,则对其加1,不然保持其为0。
三、清空根缓冲区中的全部根(注意是把这些zval从缓冲区中清除而不是销毁它们),而后销毁全部refcount为0的zval,并收回其内存。
若是不能彻底理解也没有关系,只需记住PHP5.3的垃圾回收算法有如下几点特性:
一、并非每次refcount减小时都进入回收周期,只有根缓冲区满额后在开始垃圾回收。
二、能够解决循环引用问题。
三、能够总将内存泄露保持在一个阈值如下。
因为我目前条件所限,我就不从新设计试验了,而是直接引用PHP Manual中的实验,关于二者的性能比较请参考PHP Manual中的相关章节:http://www.php.net/manual/en/features.gc.performance-considerations.php。
首先是内存泄露试验,下面直接引用PHP Manual中的实验代码和试验结果图:
<?php
class
Foo
{
public
$var
=
'3.1415962654'
;
}
$baseMemory
= memory_get_usage();
for
(
$i
= 0;
$i
<= 100000;
$i
++ )
{
$a
=
new
Foo;
$a
->self =
$a
;
if
(
$i
% 500 === 0 )
{
echo
sprintf(
'%8d: '
,
$i
), memory_get_usage() -
$baseMemory
,
"\n"
;
}
}
?>
|
能够看到在可能引起累积性内存泄露的场景下,PHP5.2发生持续累积性内存泄露,而PHP5.3则总能将内存泄露控制在一个阈值如下(与根缓冲区大小有关)。
另外是关于性能方面的对比:
<?php
class
Foo
{
public
$var
=
'3.1415962654'
;
}
for
(
$i
= 0;
$i
<= 1000000;
$i
++ )
{
$a
=
new
Foo;
$a
->self =
$a
;
}
echo
memory_get_peak_usage(),
"\n"
;
?>
|
这个脚本执行1000000次循环,使得延迟时间足够进行对比。
而后使用CLI方式分别在打开内存回收和关闭内存回收的的状况下运行此脚本:
time
php -dzend.enable_gc=0 -dmemory_limit=-1 -n example2.php
# and
time
php -dzend.enable_gc=1 -dmemory_limit=-1 -n example2.php
|
在个人机器环境下,运行时间分别为6.4s和7.2s,能够看到PHP5.3的垃圾回收机制会慢一些,可是影响并不大。
能够经过修改php.ini中的zend.enable_gc来打开或关闭PHP的垃圾回收机制,也能够经过调用gc_enable()或gc_disable()打开或关闭PHP的垃圾回收机制。在PHP5.3中即便关闭了垃圾回收机制,PHP仍然会记录可能根到根缓冲区,只是当根缓冲区满额时,PHP不会自动运行垃圾回收,固然,任什么时候候您均可以经过手工调用gc_collect_cycles()函数强制执行内存回收。