以最简单的方式讲HashMap

时间 2019-11-16

标签最简单方式 hashmap 繁體版

原文原文链接

以最简单的方式讲HashMap

HashMap能够说是面试中最常出现的名词，此次头条的一面，第一个问的问题就是HashMap。因此就让咱们来探讨下HashMap吧。html

实验环境：JDK1.8java

首先先说一下，和JDK1.7相比，对HashMap作了一些优化，使得HashMap的性能更加的优化。面试

HashMap的储存结构数组
HashMap中的Hash安全
HashMap是怎么保存数据的数据结构
HashMap的扩容操做多线程
HashMap的线程安全问题并发

HashMap的储存结构

只有当咱们知道HashMap的储存结构时，咱们才可以明白HashMap的工做原理。app

jdk1.7的存储结构

在JDK1.7中，HashMap采用的是数组【位桶】+单链表的数据结构性能

图片来自这里

jdk1.8的储存结构

在JDK1.8中，与JDK1.7最不相同的地方就是，采用了红黑树进行储存，采用的是数组【位桶】+链表+红黑树，当链表的长度超过某一阀值时，就会将链表转换为红黑树，这个阀值能够本身设置，默认是8。

图片来自这里

Hash

首先先说HashMap中的hash。当咱们使用HashMap中的put(k,v)时，

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

首先咱们要根据key算出key的hash值。

JDK1.8

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

这个hash值不只仅是经过Object中的hashCode的获得的，还须要进行右移和^位异或。

HashMap保存数据

总所周知，HashMap默认的容量大小是16，那么当咱们储存一个值时，是怎么判断储存的位置呢？

首先咱们须要明白几个参数。在使用HashMap的时候咱们极可能会使用如下的构造参数：

public HashMap(int initialCapacity, float loadFactor) ;

initialCapacity：初始化容量默认是16
capacity：容量，经过initCapacity计算出一个大于或者等于initCapacity且为2的幂的值
loadFactor：装载因子，默认是0.75，根据它来肯定须要扩容的阀值。
threshold：阀值，capacity*loadFactor即为阀值。

未产生hash冲突

// n是HashMap的大小，Hash为key的hash值，tab为以下图中的table，i表明储存的位置
int i;
// 为null表明此位置为空的
if ((p = tab[i = (n - 1) & hash]) == null)
    tab[i] = newNode(hash, key, value, null);

例如：当某一hash值与（n-1）相与的结果是3，那么就将这个这个table的第3号的位置。

产生hash冲突

可是若是当咱们获得的hash值同样或者说相与的结果的table位置已经存在一个值了，那么咱们应该怎么去储存呢？
- 当key与table[i]的全部key进行equals比较，若是相同则直接更新覆盖value。
- 假如key进行equals比较不相同，则进行元素的插入操做（在jdk1.7中是链表的插入，在jdk1.8中既有链表的插入操做也有红黑树的操做）。

HashMap保存数据的JKD1.8源代码看源代码可以更好的理解HashMap的put操做

final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        // 假如table是空的或者说长度为0，则进行扩容
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        // 假如桶中的元素是空的，则直接将元素放在桶中【使用(n - 1) & hash]判断放的位置】
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        // 假如桶中已经存在这个元素
        else {
            Node<K,V> e; K k;
            // 假如桶中的第一个元素p的hash值，key与要存的值相等
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;// 使用e来记录p
            // TreeNode 表明红黑树节点
            // 假如key不相等，则将元素放入红黑树节点中
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            // 假如p为链表节点
            else {
                // 进行链表查找
                for (int binCount = 0; ; ++binCount) {
                    // 假如next为空【表明达到链表末尾】
                    if ((e = p.next) == null) {
                        // 在末尾插入新的节点
                        p.next = newNode(hash, key, value, null);
                        // 若是链表长度达到阀值，则转化为红黑树
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        // 插入元素后跳出循环
                        break;
                    }
                    // 在链表中也会遇到key同样的元素，则时候就跳出循环
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        // 此时e为链表中key相等的元素
                        break;
                    p = e;
                }
            }
            // e不为nul，表明要相同的元素
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                // 若是onlyIfAbsent为false或者旧值为空，则进行更新
                // 在源码中onlyIfAbsent默认是false
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                // 回调以容许LinkedHashMap过后操做
                afterNodeAccess(e);
                // 返回旧值
                return oldValue;
            }
        }
        // modeCount表明HashMap在结构上面被修改的次数
        ++modCount;
        // 加入大小大于阀值则进行扩容
        if (++size > threshold)
            resize();
        // 回调以容许LinkedHashMap过后操做
        afterNodeInsertion(evict);
        return null;
    }

HashMap的扩容操做

在HashMap中进行扩容操做是特别耗费时间的，由于随着扩容，会从新进行一次hash分配，遍历hash表中的全部元素，由于桶的大小【也就是数组长度n】变了，那么(n - 1) & hash的值也会发生改变，因此咱们在编写程序时应该尽可能避免resize，尽可能在新建HashMap对象的时候指令桶的长度【阿里巴巴开发手册也是这样推荐使用】。

HashMap进行扩容时，会彻底新建一个桶，咱们从上面了解到桶就是数组，而数组是没办法自动扩容的，因此咱们须要用一个新的数组来代替前面的桶。而当HashMap进行扩容是，阀值会变成原来的两倍，容量也会变成原来的两倍

首先咱们先讲讲JDK1.7中的resize(),JDK1.8有红黑树，仍是有点麻烦。

JDK1.7 的rezise()

void resize(int newCapacity) {   //传入新的容量 
    //table为扩容前的Entry数组
    Entry[] oldTable = table;
    int oldCapacity = oldTable.length;  
    // 若是扩容前的数组大小若是已经达到最大(2^30) 
    if (oldCapacity == MAXIMUM_CAPACITY) {  
        //修改阈值为int的最大值(2^31-1)，这样之后就不会扩容了 
        threshold = Integer.MAX_VALUE;
        return;  
    }  

    // 新建一个Entry数组
    Entry[] newTable = new Entry[newCapacity];  
    //将数据转移到新的Entry数组里
    transfer(newTable);
    // 修改table的指向对象
    table = newTable;
    threshold = (int) (newCapacity * loadFactor);//修改阈值 
}

void transfer(Entry[] newTable) {  
    Entry[] src = table;                   //src引用了旧的Entry数组 
    int newCapacity = newTable.length;  
    // 遍历旧的Entry数组 
    for (int j = 0; j < src.length; j++) { 
        Entry<K, V> e = src[j];
        // 若是此位置存在元素
        if (e != null) {  
            // for循环事后，旧的Entry数组就再也不引用任何对象
            src[j] = null;
            // 遍历链表
            do {  
                // 得到链表中的下一个元素
                Entry<K, V> next = e.next;  
                // 从新计算数据保存位置
                int i = indexFor(e.hash, newCapacity);
                // 在jdk1.7中是头部插入，此时e.next指向新的数组位置newTable[i]
                e.next = newTable[i];
                // 将newTable指向e
                newTable[i] = e;
                // 访问下一个Entry链上的元素
                e = next;
            } while (e != null);  
        }  
    }  
}  
static int indexFor(int h, int length) {  
    return h & (length - 1);  
}

JDK1.8 的rezise()

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    // 得到table的大小，并将其长度赋值给oldCap
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    // 阀值赋值
    int oldThr = threshold;
    int newCap, newThr = 0;
    // 若是table不为空
    if (oldCap > 0) {
        // 数组大小大于(2^30)
        if (oldCap >= MAXIMUM_CAPACITY) {
            // 修改阈值为int的最大值(2^31-1)，这样之后就不会扩容了 
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // newCap = oldCap << 1新的容量为之前的两倍
        // 当新的table长度没有超过最致使，且之前的table长度大于16，则进行阀值更新
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                    oldCap >= DEFAULT_INITIAL_CAPACITY)
            // 阀值扩大成两倍
            newThr = oldThr << 1; // double threshold
    }
    // 若是table为空，且阀值大于0
    else if (oldThr > 0) // initial capacity was placed in threshold
        // 则新的容量大小为阀值
        newCap = oldThr;
    
    // 假如table为空切阀值小于等于0，则初始化阀值，和table
    else {               // zero initial threshold signifies using defaults
        // 新的table长度为16
        newCap = DEFAULT_INITIAL_CAPACITY;
        // 新的阀值为负载因子【0.75】*16
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                    (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
    /* *以上都是进行初始化操做，目的是扩大容量，或则初始化HashMap *下面即是从新存放元素操做 */

    @SuppressWarnings({"rawtypes","unchecked"})
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;
    if (oldTab != null) {
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            // 假如oldTab[j]中含有元素
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                // 假如没有下一个元素，也就是oldTab[j]中只有e一个元素
                if (e.next == null)
                    // 从新选择空间
                    newTab[e.hash & (newCap - 1)] = e;
                // 假若有下一个元素，且该节点为红黑树节点
                else if (e instanceof TreeNode)
                    // 将该节点进行rehash后，放到新的地方
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);

                /** * 在JDK1.8中不像JDK1.7同样从新进行hash值计算，而是利用了一个规律： * 假如e.hash & oldCap为0，那么该元素的引索位置没有变 * 假如e.hash & oldCap为1，那么该元素的引索位置为原引索+oldCap */
                // 假若有下一个元素，但该节点为链表节点
                else { // preserve order
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

HashMap的线程安全问题

相信不少人都据说过HashMap线程不安全，可是HashMap为何会产生线程安全问题呢？

多线程put()操做

设想一个场景，A线程正在进行put操做，它通过hash计算，以及链表查找，已经肯定了put的位置X，可是这时候cpu时间片到了，A线程不得不退出put操做的执行，这时候B线程得到了cpu时间片，在X的位置进行插入值，若是A线程再执行put操做就会覆盖之前的值，此时数据就不一致了。

多线程resize()操做

当多个线程进行resize()操做时，假如table已经变成新数组，那么下一个线程会使用已经被赋值过得的table作为初始值进行操做。这样可能就会出现死循环的操做。

至于怎么避免HashMap的多线程安全问题，ConcurrentHashMap是一个好东西，至于它是怎么解决并发的问题，咱们下次再聊。

HashMap其实并非很难，咱们主要是要理解它储存元素的思想与方法。而经过源代码，咱们可以更好的理解设计的理念