Hash数据结构是一种很是常见的数据结构,做为一个程序员,你可能天天都在和它接触, 尽管不少时候你可能没有意识到。Hash在PHP内核中扮演了很是重要的角色,数组、变量做用域、函数参数列表等均是基于Hash实现。因此,在PHP里你能看到各类对于Hash的优化。html
Hash数据结构程序员
Hash数据结构,本质上为了解决计算机中真正意义的数组只能使用数字做为索引,而程序员却常常须要使用字符串或者其余更复杂的类型来做为数组key的问题。首先咱们须要一个函数能把字符串转成数字。而后,因为数组的长度有限,咱们还须要把这个数字映射到数组长度的区间里,通常使用取模操做。最后, 若是两个字符串最终计算出来的Hash值同样,将保存到数组相同的位置上,这种状况叫作Hash冲突。解决冲突的常见办法之一就是拉链法, 就是将Hash冲突的数据维护在一个链表里; 另外一种比较常见的解决冲突的办法叫开放寻址。下图所示是一个典型的Hash结构:算法
Hash函数的最优状况是,将key平均分布在数组空间中, 这样能得到最大的性能。最坏的状况是彻底冲突,这个时候Hash表事实上已经退化为一个链表。前几年比较火的Hash攻击事实上就是构造大量的冲突key,使PHP的POST数组退化为链表,从而耗尽服务器的CPU资源。数组
所以咱们能够得出一个结论, 一个优秀的hash函数应该符合两点:足够随机分布,足够快。服务器
DJB2算法数据结构
PHP内核中的hash函数(http://www.cse.yorku.ca/~oz/hash.html)采用的是经典的djb2算法,源码为:函数
关于这个算法背后其实有很复杂的数学证实,我曾经看到过一篇文章给出了完整证实,受限于数学水平这里我只能从工程的角度来简单说一下结论:性能
奇数和素数能比偶数获得更随机的结果,因此能够看到hash函数里使用的是5381和33两个数。优化
为何是5381?在这个讨论里(https://groups.google.com/forum/#!topic/comp.lang.c/lSKWXiuNOAk)谈到采用一个比255大而又不是特别大的素数均可以,djb2的做者也参与了讨论,他在讨论里说他选择了5381,只是由于5381符合这个条件, 并无其余特殊的缘由。google
为何是33?其实有不少数均可以,采用33是由于n*33能够优化为n << 5 + n,能够把一个耗时的乘法操做优化为移位操做,毕竟hash函数的效率是很是重要的。
咱们看下PHP内核中的Hash函数实现:
能够看出来PHP采用的就是djb2算法,可是彷佛和经典的djb2算法有些差距。实际上是PHP内核开发者对这个函数作了进一步的优化。
达夫设备
达夫设备(https://zh.wikipedia.org/wiki/%E8%BE%BE%E5%A4%AB%E8%AE%BE%E5%A4%87)的本质在于减小循环次数。考虑下面的代码:
这段代码的特色是很是简单,简单到循环自己就占用了大多数性能开销,由于每次循环都须要作累减和比较。所以减小循环次数反而成为了优化重点,这种状况在系统底层的内存复制的场景中常常出现。PHP中的Hash函数就采用了达夫设备这种技巧来优化, 循环次数减小为原来的1/8。
顺便说一句,实际上最先的达夫设备程序版本是这样的:
并且这段代码真的能编译经过。
取模优化
计算出来hash值以后咱们须要把hash值映射到数组中, 好比hash值为15,数组a长度为10,15%10获得5, 最终保存在a[5]的位置上。可是取模操做在特定条件下是能够优化的。在PHP内核中,hash table的大小会设定为2的n次方。当数组大小为2的n次方时, hash % ht->nTableSize 能够优化为 hash & (ht->nTableSize - 1),也就是把除法操做优化成了位操做。
结语
咱们看到,一个简单的hash函数背后都蕴含了如此丰富的优化技巧,难怪都说PHP是世界上最好的语言 :) 。