HashMap 和 HashSet 即 java 中利用哈希表实现的 Map 和 Set

时间 2020-03-01

标签 hashmap hashset java 利用哈希实现 map set 栏目 Java 繁體版

原文原文链接

Java中的HashTable 哈希表
一：概念
顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，所以在查找一个元素时，必需要通过关键码的屡次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即O(log_2 N)，搜索的效率取决于搜索过程当中元素的比较次数。
理想的搜索方法：能够不通过任何比较，一次直接从表中获得要搜索的元素。 若是构造一种存储结构，经过某种函数使元素的存储位置与它的关键码之间可以创建一一映射的关系，那么在查找时经过该函数能够很快找到该元素。
当向该结构中：
插入元素
根据待插入元素的关键码，以此函数计算出该元素的存储位置并按此位置进行存放。
搜索元素
对元素的关键码进行一样的计算，把求得的函数值当作元素的存储位置，在结构中按此位置取元素比较，若关键码相等，则搜索成功。
该方式即为哈希(散列)方法，哈希方法中使用的转换函数称为哈希(散列)函数，构造出来的结构称为哈希表(HashTable)(或者称散列表)
二：冲突-概念
对于两个数据元素的关键字K1!=K2，但有：Hash(K1) == Hash(K2)，即：不一样关键码经过相同哈希函数计算出相同的哈希地址，该种现象称为哈希冲突或哈希碰撞。
把具备不一样关键码而具备相同哈希地址的数据元素称为“同义词”。
三：冲突-避免-设计哈希函数
引发哈希冲突的一个缘由多是：哈希函数设计不够合理。哈希函数设计原则：
1.哈希函数的定义域必须包括须要存储的所有关键码，而若是散列表容许有m个地址时，其值域必须在0到m-1之间。
2.哈希函数计算出来的地址能均匀分布在整个空间中。
3.哈希函数应该比较简单。
常见哈希函数有：java

直接定制法--(经常使用)
取关键字的某个线性函数为散列地址：Hash（Key）= A*Key + B
优势：简单、均匀
缺点：须要事先知道关键字的分布状况
使用场景：适合查找比较小且连续的状况 ide
除留余数法--(经常使用)
设散列表中容许的地址数为m，取一个不大于m，但最接近或者等于m的质数p做为除数，按照哈希函数：Hash(key) = key% p(p<=m),将关键码转换成哈希地址。
平方取中法--(了解) 折叠法--(了解)随机数法--(了解)数学分析法--(了解)。
四：冲突-避免-设计哈希函数

五：冲突-解决
解决哈希冲突两种常见的方法是：闭散列（线性探测法）和开散列（拉链桶）
六：（1）冲突-解决-闭散列
闭散列：也叫开放定址法，当发生哈希冲突时，若是哈希表未被装满，说明在哈希表中必然还有空位置，那么能够把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置呢？
线性探测：从发生冲突的位置开始，依次向后探测，直到寻找到下一个空位置为止。
插入：
经过哈希函数获取待插入元素在哈希表中的位置，若是该位置中没有元素则直接插入新元素，若是该位置中有元素发生哈希冲突，使用线性探测找到下一个空位置，插入新元素。
采用闭散列处理哈希冲突时，不能随便物理删除哈希表中已有的元素，若直接删除元素会影响其余元素的搜索。好比删除元素4，若是直接删除掉，44查找起来可能会受影响。所以线性探测采用标记的伪删除法来删除一个元素。
可是：闭散列最大的缺陷就是空间利用率比较低，这也是哈希的缺陷。函数

六：（2）冲突-解决-开散列/哈希桶（重点）
开散列法又叫链地址法(开链法)，首先对关键码集合用散列函数计算散列地址，具备相同地址的关键码归于同一子集合，每个子集合称为一个桶，各个桶中的元素经过一个单链表连接起来，各链表的头结点存储在哈希表中。
性能

从上图能够看出，开散列中每一个桶中放的都是发生哈希冲突的元素。
开散列，能够认为是把一个在大集合中的搜索问题转化为在小集合中作搜索了。设计

七：性能分析
虽然哈希表一直在和冲突作斗争，但在实际使用过程当中，咱们认为哈希表的冲突率是不高的，冲突个数是可控的，也就是每一个桶中的链表的长度是一个常数，因此，一般意义下，咱们认为哈希表的插入/删除/查找时间复杂度是O(1) 。
八：和 java 类集的关系对象

HashMap 和 HashSet 即 java 中利用哈希表实现的 Map 和 Set
java 中使用的是哈希桶方式解决冲突的
java 会在冲突链表长度大于必定阈值后，将链表转变为搜索树（红黑树）
java 中计算哈希值其实是调用的类的 hashCode 方法，进行 key 的相等性比较是调用 key 的 equals 方法。因此若是要用自定义类做为 HashMap 的 key 或者 HashSet 的值，必须覆写 hashCode 和 equals 方法，并且要作到 equals 相等的对象，hashCode 必定是一致的。