咱们在这篇文章将要学习最有用的数据结构之一—哈希表,哈希表的英文叫 Hash Table,也能够称为散列表或者 Hash 表。git
哈希表用的是数组支持按照下标随机访问数据的特性,因此哈希表其实就是数组的一种扩展,由数组演化而来。能够说,若是没有数组,就没有散列表。github
哈希表存储的是由键(key)和值(value)组成的数据。 例如,咱们将每一个人的性别做为数据进行存储,键为人名,值为对应的性别,其中 M 表示性别为男,F 表示性别为女。算法
为了和哈希表进行对比,咱们先将这些数据存储在数组中。数组
此处准备了6个箱子(即长度为6的数组)来存储数据,假设咱们须要查询 Ally 的性别,因为不知道 Ally 的数据存储在哪一个箱子里,因此只能从头开始查询,这个操做便叫做线性查找。通常来讲,咱们能够把键当成数据的标识符,把值当成数据的内容。数据结构
从 0 号箱子开始查找,发现 0 号箱子中存储的键是 Joe 而不是 Ally,所以接着查找 1 号箱子。函数
哦豁,1 号箱子中的也不是 Ally,没办法,只能接着往下找。性能
有点小糟糕,2 号、3 号箱子中的也都不是 Ally。学习
功夫不负有心人,当咱们查找到 4 号箱子的时候,发现其中数据的键为 Ally,把键对应的值取出,咱们就知道 Ally 的性别为女(F)。设计
经过上面的查找过程,咱们发现数据量越多,线性查找耗费的时间就越长。由此可知:因为数据的查询较为耗时,因此此处并不适合使用数组来存储数据。3d
但使用哈希表即可以解决这个问题,首先准备好数组,此次咱们用 5 个箱子的数组来存储数据。
尝试把 Joe 存进去,使用哈希函数(Hash)计算 Joe 的键,也就是字符串 Joe 的哈希值,好比获得的结果为4928。
将获得的哈希值除以数组的长度 5,求得其他数,这样的求余运算叫做mod运算,此处mod运算的结果为3。
所以,咱们将 Joe 的数据存进数组的 3 号箱子中,重复前面的操做,将其余数据也存进数组中。
Sue 键的哈希值为 7291, mod 5 的结果为 1,将 Sue 的数据存进 1 号箱中。
Dan 键的哈希值为 1539, mod 5 的结果为 4,将 Dan 的数据存进 4 号箱中。
Nell 键的哈希值为 6276, mod 5 的结果为 1,本应将其存进数组的 1 号箱中,但此时 1 号箱中已经存储了 Sue 的数据,这种存储位置重复了的状况便叫做冲突。
遇到这种状况,可以使用链表在已有数据的后面继续存储新的数据(链表法)。
Ally 键的哈希值为 9143, mod 5 的结果为 3,本应将其存储在数组的 3 号箱中,但 3 号箱中已经有了 Joe 的数据,因此使用链表,在其后面存储 Ally 的数据。
Bob 键的哈希值为 5278, mod 5 的结果为 3,本应将其存储在数组的 3 号箱中,但 3 号箱中已经有了 Joe 和 Ally 的数据,因此使用链表,在 Ally 的后面继续存储 Bob 的数据。
像这样存储完全部数据,哈希表也就制做完成了。
接下来说解数据的查询方法,假设咱们要查询 Dan 的性别。
为了知道 Dan 存储在哪一个箱子里,首先须要算出 Dan 键的哈希值,而后对其进行 mod 运算,最后获得的结果为 4,因而咱们知道了它存储在 4 号箱中。
查看 4 号箱可知,其中的数据的键与 Dan 一致,因而取出对应的值,由此咱们便知道了 Dan 的性别为男(M)。
那么,想要查询 Ally 的性别时该怎么作呢?为了找到它的存储位置,先要算出 Ally 键的哈希值,再对其进行 mod 运算,最终获得的结果为 3。
然而 3 号箱中数据的键是 Joe 而不是 Ally,此时便须要对 Joe 所在的链表进行线性查找。
因而咱们找到了键为 Ally 的数据,取出其对应的值,便知道了 Ally 的性别为女(F)。
在哈希表中,咱们能够利用哈希函数快速访问到数组中的目标数据。若是发生哈希冲突,就使用链表进行存储,这样一来,无论数据量为多少,咱们都可以灵活应对。
若是数组的空间过小,使用哈希表的时候就容易发生冲突,线性查找的使用频率也会更高;反过来,若是数组的空间太大,就会出现不少空箱子,形成内存的浪费。所以,给数组设定合适的空间很是重要。
在存储数据的过程当中,若是发生冲突,能够利用链表在已有数据的后面插入新数据来解决冲突,这种方法被称为链表法,也被称为链地址法。
其中在 Java 集合类的 HashMap 中解决冲突的方法就是采用的链表法,建议阅读 HashMap 源码。
除了链地址法之外,还有几种解决冲突的方法。其中,应用较为普遍的是开放地址法,或称为开放寻址法。这种方法是指当冲突发生时,马上计算出一个候补地址(数组上的位置)并将数据存进去。若是仍然有冲突,便继续计算下一个候补地址,直到有空地址为止,能够经过屡次使用哈希函数或线性探测法等方法计算候补地址。
在 Java 中,ThreadLocal 所使用的就是开放地址法。
哈希函数设计的好坏决定了哈希冲突的几率,也就决定哈希表的性能。
这篇文章主要讲了一些比较基础的哈希表知识,包括哈希表的由来、哈希冲突的解决方法。
哈希表也叫散列表,来源于数组,它借助哈希函数对数组这种数据结构进行扩展,利用的是数组支持按照下标随机访问元素的特性,是存储 Key-Value 映射的集合。
哈希表两个核心问题是哈希函数设计和哈希冲突解决。对于某一个 Key,哈希表能够在接近 O(1) 的时间内进行读写操做。哈希表经过哈希函数实现 Key 和数组下标的转换,经过开放寻址法和链表法来解决哈希冲突。哈希函数设计的好坏决定了哈希冲突的几率,也就决定哈希表的性能。
有兴趣的能够在 JDK 中阅读 HashMap 的源码,在 JDK 8 和以前的版本的实现还有许多很少,好比在 JDK 8 中,引入红黑树,当链表长度太长(默认超过 8)时,链表就转换为红黑树,就能够利用红黑树快速增删改查的特色,提升 HashMap 的性能。
参考
《个人第一本算法书》