哈希是一种最多见算法,天天和哈希紧密相连。redis用的哈希算法DJB, MurmurHash, 还有常见的FNV.nginx
1.DJBHash是一种很是流行的算法,俗称"Times33"算法。Times33的算法很简单,就是不断的乘33,原型以下
hash(i) = hash(i-1) * 33 + str[i]
Time33在效率和随机性两方面上俱佳。c++
|
/* the famous DJB Hash Function for strings */redis unsigned int DJBHash(char *str)算法 {memcached unsigned int hash = 5381;函数 while (*str){oop hash = ((hash << 5) + hash) + (*str++); /* times 33 */性能 }ui hash &= ~(1 << 31); /* strip the highest bit */编码 return hash; } |
2.MurmurHash
MurmurHash算法:高运算性能,低碰撞率,由Austin Appleby建立于2008年,现已应用到Hadoop、libstdc++、nginx、libmemcached等开源系统。2011年Appleby被Google雇佣,随后Google推出其变种的CityHash算法
|
uint32_t murmur_hash2(char *data, size_t len) { uint32_t h, k;
h = 0 ^ len;
while (len >= 4) { k = data[0]; k |= data[1] << 8; k |= data[2] << 16; k |= data[3] << 24;
k *= 0x5bd1e995; k ^= k >> 24; k *= 0x5bd1e995;
h *= 0x5bd1e995; h ^= k;
data += 4; len -= 4; }
switch (len) { case 3: h ^= data[2] << 16; case 2: h ^= data[1] << 8; case 1: h ^= data[0]; h *= 0x5bd1e995; }
h ^= h >> 13; h *= 0x5bd1e995; h ^= h >> 15;
return h; } 3. FNV 特色和用途:FNV能快速hash大量数据并保持较小的冲突率,它的高度分散使它适用于hash一些很是相近的字符串,好比URL,hostname,文件名,text,IP地址等。 算法版本:FNV算法有三个版本:FNV-0(已废弃)、FNV-1和FNV-1a 4. 经常使用字符串哈希函数有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。对于以上几种哈希函数,我对其进行了一个小小的评测。
其中数据1为100000个字母和数字组成的随机串哈希冲突个数。数据2为100000个有意义的英文句子哈希冲突个数。数据3为数据1的哈希值与1000003(大素数)求模后存储到线性表中冲突的个数。数据4为数据1的哈希值与10000019(更大素数)求模后存储到线性表中冲突的个数。 通过比较,得出以上平均得分。平均数为平方平均数。能够发现,BKDRHash不管是在实际效果仍是编码实现中,效果都是最突出的。APHash也是较为优秀的算法。DJBHash,JSHash,RSHash与SDBMHash各有千秋。PJWHash与ELFHash效果最差,但得分类似,其算法本质是类似的。 在信息修竞赛中,要本着易于编码调试的原则,我的认为BKDRHash是最适合记忆和使用的 |