hash算法

哈希是一种最多见算法,天天和哈希紧密相连。redis用的哈希算法DJB, MurmurHash, 还有常见的FNV.nginx

1.DJBHash是一种很是流行的算法,俗称"Times33"算法。Times33的算法很简单,就是不断的乘33,原型以下
hash(i) = hash(i-1) * 33 + str[i]
Time33在效率和随机性两方面上俱佳。c++

 

/* the famous DJB Hash Function for strings */redis

unsigned int DJBHash(char *str)算法

{memcached

unsigned int hash = 5381;函数

while (*str){oop

hash = ((hash << 5) + hash) + (*str++); /* times 33 */性能

}ui

hash &= ~(1 << 31); /* strip the highest bit */编码

return hash;

}

2.MurmurHash

MurmurHash算法:高运算性能,低碰撞率,由Austin Appleby建立于2008年,现已应用到Hadoop、libstdc++、nginx、libmemcached等开源系统。2011年Appleby被Google雇佣,随后Google推出其变种的CityHash算法

 

 

uint32_t

murmur_hash2(char *data, size_t len)

{

uint32_t h, k;

 

h = 0 ^ len;

 

while (len >= 4) {

k = data[0];

k |= data[1] << 8;

k |= data[2] << 16;

k |= data[3] << 24;

 

k *= 0x5bd1e995;

k ^= k >> 24;

k *= 0x5bd1e995;

 

h *= 0x5bd1e995;

h ^= k;

 

data += 4;

len -= 4;

}

 

switch (len) {

case 3:

h ^= data[2] << 16;

case 2:

h ^= data[1] << 8;

case 1:

h ^= data[0];

h *= 0x5bd1e995;

}

 

h ^= h >> 13;

h *= 0x5bd1e995;

h ^= h >> 15;

 

return h;

}

3. FNV
由来:FNV哈希算法全名为Fowler-Noll-Vo算法,是以三位发明人Glenn Fowler,Landon Curt Noll,Phong Vo的名字来命名的,最先在1991年提出。

特色和用途:FNV能快速hash大量数据并保持较小的冲突率,它的高度分散使它适用于hash一些很是相近的字符串,好比URL,hostname,文件名,text,IP地址等。

算法版本:FNV算法有三个版本:FNV-0(已废弃)、FNV-1和FNV-1a

4.

经常使用字符串哈希函数有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。对于以上几种哈希函数,我对其进行了一个小小的评测。

 

 

Hash函数 数据1 数据2 数据3 数据4 数据1得分 数据2得分 数据3得分 数据4得分 平均分
BKDRHash 2 0 4774 481 96.55 100 90.95 82.05 92.64
APHash 2 3 4754 493 96.55 88.46 100 51.28 86.28
DJBHash 2 2 4975 474 96.55 92.31 0 100 83.43
JSHash 1 4 4761 506 100 84.62 96.83 17.95 81.94
RSHash 1 0 4861 505 100 100 51.58 20.51 75.96
SDBMHash 3 2 4849 504 93.1 92.31 57.01 23.08 72.41
PJWHash 30 26 4878 513 0 0 43.89 0 21.95
ELFHash 30 26 4878 513 0 0 43.89 0 21.95

 

其中数据1为100000个字母和数字组成的随机串哈希冲突个数。数据2为100000个有意义的英文句子哈希冲突个数。数据3为数据1的哈希值与1000003(大素数)求模后存储到线性表中冲突的个数。数据4为数据1的哈希值与10000019(更大素数)求模后存储到线性表中冲突的个数。

通过比较,得出以上平均得分。平均数为平方平均数。能够发现,BKDRHash不管是在实际效果仍是编码实现中,效果都是最突出的。APHash也是较为优秀的算法。DJBHash,JSHash,RSHash与SDBMHash各有千秋。PJWHash与ELFHash效果最差,但得分类似,其算法本质是类似的。

在信息修竞赛中,要本着易于编码调试的原则,我的认为BKDRHash是最适合记忆和使用的

相关文章
相关标签/搜索