红黑树与Hash的区别与选择

时间 2019-11-13

标签 hash 区别选择繁體版

原文原文链接

什么是Hash

Hash，也能够称为“散列”，就是把任意长度的输入，经过散列算法，变换成固定长度的输出，该输出就是散列值。这是一种压缩映射，也就是，散列值的空间一般远小于输入的空间，不一样的输入可能会散列成相同的输出（也就是多对一的关系）。 html

哈希表的构造

在全部的线性数据结构中，数组的定位速度最快，由于它可经过数组下标直接定位到相应的数组空间，就不须要一个个查找。而哈希表就是利用数组这个可以快速定位数据的结构解决以上的问题的。 c++

"数组能够经过下标直接定位到相应的空间”，对就是这句，哈希表的作法其实很简单，就是把Key经过一个固定的算法函数既所谓的哈希函数转换成一个整型数字，而后就将该数字对数组长度进行取余，取余结果就看成数组的下标，将value存储在以该数字为下标的数组空间里，而当使用哈希表进行查询的时候，就是再次使用哈希函数将key转换为对应的数组下标，并定位到该空间获取value，如此一来，就能够充分利用到数组的定位性能进行数据定位。算法

例如：若是一个hash函数是这样的，数组

index = value % 5; 安全

以下图中，左边为一个长度为5的指针数据，下标从0到4，每一个数据元素都是一个链表的头指针，这样经过value%5就造成了一种一对多的关系，缩小了查找的范围。数据结构

虽然咱们不但愿发生冲突（同一个key有多个value），但实际上发生冲突的可能性还是存在的。当关键字值域远大于哈希表的长度，并且事先并不知道关键字的具体取值时。冲突就不免会发生。另外，当关键字的实际取值大于哈希表的长度时，并且表中已装满了记录，若是插入一个新记录，不只发生冲突，并且还会发生溢出。所以，处理冲突和溢出是哈希技术中的两个重要问题。通常有开放地址法、链地址法。函数

看到了一个叫作One-Way Hash的算法（来自暴雪的hash算法）。性能

若是说两个不一样的字符串通过一个哈希算法获得的入口点一致有可能，但用三个不一样的哈希算法算出的入口点都一致，那几乎能够确定是不可能的事了，这个概率是1:18889465931478580854784，大概是10的 22.3次方分之一，对一个游戏程序来讲足够安全了。第一个hash值做为用来定位，另外两个hash值用来检测。 spa

Hash的实例JDK7与JDK8中HashMap的实现 .net

适用范围

　　快速查找，删除的基本数据结构，一般须要总数据量能够放入内存。

什么是Map

Map是c++标准库STL提供的一类关联式容器，提供key-value的存储和查找功能。

Map是基于红黑树的（一样set也是）（Java中有基于Hash实现的HashMap和HashSet），那么它的查找速度是log(n)级别的。

它的优势是占用内存小。

Hash与Map的区别

权衡三个因素: 查找速度, 数据量, 内存使用，可扩展性，有序性。
整体来讲，hash查找速度会比RB树快，并且查找速度基本和数据量大小无关，属于常数级别;而RB树的查找速度是log(n)级别。并不必定常数就比log(n) 小，hash还有hash函数的耗时，明白了吧，若是你考虑效率，特别是在元素达到必定数量级时，考虑考虑hash。但若你对内存使用特别严格，但愿程序尽量少消耗内存，那么必定要当心，hash可能会让你陷入尴尬，特别是当你的hash对象特别多时，你就更没法控制了，并且 hash的构造速度较慢。

红黑树并不适应全部应用树的领域。若是数据基本上是静态的，那么让他们待在他们可以插入，而且不影响平衡的地方会具备更好的性能。若是数据彻底是静态的，例如，作一个哈希表，性能可能会更好一些。

在实际的系统中，例如，须要使用动态规则的防火墙系统，使用红黑树而不是散列表被实践证实具备更好的伸缩性。Linux内核在管理vm_area_struct时就是采用了红黑树来维护内存块的。

红黑树是有序的，Hash是无序的，根据需求来选择。

拿红黑树实现的Map和Hash实现的HashMap相比：

若是只须要判断Map中某个值是否存在之类的操做，固然是Hash实现的要更加高效。

若是是须要将两个Map求并集交集差集等大量比较操做，就是红黑树实现的Map更加高效。

Reference：

1. http://www.cnblogs.com/coder2012/p/3386101.html

2. http://www.lxway.com/852122226.htm

3. http://46aae4d1e2371e4aa769798941cef698.devproxy.yunshipei.com/u012609067/article/details/35849887