阿里巴巴Java开发手册建议建立HashMap时设置初始化容量,可是多少合适呢?

集合是Java开发平常开发中常常会使用到的,而做为一种典型的K-V结构的数据结构,HashMap对于Java开发者必定不陌生。面试

关于HashMap,不少人都对他有一些基本的了解,好比他和hashtable之间的区别、他和concurrentHashMap之间的区别等。这些都是比较常见的,关于HashMap的一些知识点和面试题,想来你们必定了熟于心了,而且在开发中也能有效的应用上。算法

可是,做者在不少次 CodeReview 以及面试中发现,有一个比较关键的小细节常常被忽视,那就是HashMap建立的时候,要不要指定容量?若是要指定的话,多少是合适的?为何?性能优化

要设置HashMap的初始化容量

在《HashMap中傻傻分不清楚的那些概念》中咱们曾经有过如下结论:数据结构

HashMap有扩容机制,就是当达到扩容条件时会进行扩容。HashMap的扩容条件就是当HashMap中的元素个数(size)超过临界值(threshold)时就会自动扩容。在HashMap中,threshold = loadFactor * capacity。性能

因此,若是咱们没有设置初始容量大小,随着元素的不断增长,HashMap会发生屡次扩容,而HashMap中的扩容机制决定了每次扩容都须要重建hash表,是很是影响性能的。优化

因此,首先能够明确的是,咱们建议开发者在建立HashMap的时候指定初始化容量。而且《阿里巴巴开发手册》中也是这么建议的:spa

HashMap初始化容量设置多少合适

那么,既然建议咱们集合初始化的时候,要指定初始值大小,那么咱们建立HashMap的时候,到底指定多少合适呢?3d

有些人会天然想到,我准备塞多少个元素我就设置成多少呗。好比我准备塞7个元素,那就new HashMap(7)。code

可是,这么作不只不对,并且以上方式建立出来的Map的容量也不是7。cdn

由于,当咱们使用HashMap(int initialCapacity)来初始化容量的时候,HashMap并不会使用咱们传进来的initialCapacity直接做为初识容量。

JDK会默认帮咱们计算一个相对合理的值当作初始容量。所谓合理值,实际上是找到第一个比用户传入的值大的2的幂。

也就是说,当咱们new HashMap(7)建立HashMap的时候,JDK会经过计算,帮咱们建立一个容量为8的Map;当咱们new HashMap(9)建立HashMap的时候,JDK会经过计算,帮咱们建立一个容量为16的Map。

可是,这个值看似合理,实际上并不尽然。由于HashMap在根据用户传入的capacity计算获得的默认容量,并无考虑到loadFactor这个因素,只是简单机械的计算出第一个大约这个数字的2的幂。

loadFactor是负载因子,当HashMap中的元素个数(size)超过 threshold = loadFactor * capacity时,就会进行扩容。

也就是说,若是咱们设置的默认值是7,通过JDK处理以后,HashMap的容量会被设置成8,可是,这个HashMap在元素个数达到 8*0.75 = 6的时候就会进行一次扩容,这明显是咱们不但愿见到的。

那么,到底设置成什么值比较合理呢?

这里咱们能够参考JDK8中putAll方法中的实现的,这个实如今guava(21.0版本)也被采用。

这个值的计算方法就是:

return (int) ((float) expectedSize / 0.75F + 1.0F);
复制代码

好比咱们计划向HashMap中放入7个元素的时候,咱们经过expectedSize / 0.75F + 1.0F计算,7/0.75 + 1 = 10 ,10通过JDK处理以后,会被设置成16,这就大大的减小了扩容的概率。

当HashMap内部维护的哈希表的容量达到75%时(默认状况下),会触发rehash,而rehash的过程是比较耗费时间的。因此初始化容量要设置成expectedSize/0.75 + 1的话,能够有效的减小冲突也能够减少偏差。(你们结合这个公式,好好理解下这句话)

因此,咱们能够认为,当咱们明确知道HashMap中元素的个数的时候,把默认容量设置成expectedSize / 0.75F + 1.0F 是一个在性能上相对好的选择,可是,同时也会牺牲些内存。

这个算法在guava中有实现,开发的时候,能够直接经过Maps类建立一个HashMap:

Map<String, String> map = Maps.newHashMapWithExpectedSize(7);
复制代码

其代码实现以下:

public static <K, V> HashMap<K, V> newHashMapWithExpectedSize(int expectedSize) {
    return new HashMap(capacity(expectedSize));
}

static int capacity(int expectedSize) {
    if (expectedSize < 3) {
        CollectPreconditions.checkNonnegative(expectedSize, "expectedSize");
        return expectedSize + 1;
    } else {
        return expectedSize < 1073741824 ? (int)((float)expectedSize / 0.75F + 1.0F) : 2147483647;
    }
}
复制代码

可是,以上的操做是一种用内存换性能的作法,真正使用的时候,要考虑到内存的影响。 可是,大多数状况下,咱们仍是认为内存是一种比较富裕的资源。

可是话又说回来了,有些时候,咱们到底要不要设置HashMap的初识值,这个值又设置成多少,真的有那么大影响吗?其实也不见得!

但是,大的性能优化,不就是一个一个的优化细节堆叠出来的吗?

再不济,之后你写代码的时候,使用Maps.newHashMapWithExpectedSize(7);的写法,也可让同事和老板眼前一亮。

或者哪一天你碰到一个面试官问你一些细节的时候,你也能有个印象,或者某一天你也能够拿这个出去面试问其余人~!啊哈哈哈。

相关文章
相关标签/搜索