代码地址以下:
http://www.demodashi.com/demo/12587.htmlhtml
MaxList模块主要是对Java集合大数据去重的相关介绍。java
背景: 最近在项目中遇到了List集合中的数据要去重,大概一个2500万的数据,开始存储在List中,须要跟一个2万的List去去重。ide
说到去重,稍微多讲一点啊,去重的时候有的小伙伴可能直接对2500万List foreach循环后直接删除,
其实这种是错误的(java.util.ConcurrentModificationException),你们能够本身去试一下;(注: for循环遍历删除不报错,可是效率低,不推荐使用)
首先你须要去看下foreach和迭代器的实现。foreach的实现就是用到了迭代器,因此你在foreach的时候对list进行删除操做,
迭代器Iterator没法感知到list删除了,因此会报错。直接贴代码解释下。测试
ArrayList中Iterator的实现:大数据
private class Itr implements Iterator<E> { int cursor; // index of next element to return int lastRet = -1; // index of last element returned; -1 if no such int expectedModCount = modCount; public boolean hasNext() { return cursor != size; } @SuppressWarnings("unchecked") public E next() { checkForComodification(); int i = cursor; if (i >= size) throw new NoSuchElementException(); Object[] elementData = ArrayList.this.elementData; if (i >= elementData.length) throw new ConcurrentModificationException(); cursor = i + 1; return (E) elementData[lastRet = i]; } public void remove() { if (lastRet < 0) throw new IllegalStateException(); checkForComodification(); try { ArrayList.this.remove(lastRet); cursor = lastRet; lastRet = -1; expectedModCount = modCount; } catch (IndexOutOfBoundsException ex) { throw new ConcurrentModificationException(); } } @Override @SuppressWarnings("unchecked") public void forEachRemaining(Consumer<? super E> consumer) { Objects.requireNonNull(consumer); final int size = ArrayList.this.size; int i = cursor; if (i >= size) { return; } final Object[] elementData = ArrayList.this.elementData; if (i >= elementData.length) { throw new ConcurrentModificationException(); } while (i != size && modCount == expectedModCount) { consumer.accept((E) elementData[i++]); } // update once at end of iteration to reduce heap write traffic cursor = i; lastRet = i - 1; checkForComodification(); } final void checkForComodification() { if (modCount != expectedModCount) throw new ConcurrentModificationException(); } }
经过上述的ArrayList里面的Iterator迭代器的实现咱们能够看到:
基本上ArrayList采用size属性来维护自已的状态,而Iterator采用cursor来来维护自已的状态。
当你直接在foreach里面对list进行删除操做,size出现变化时,cursor并不必定可以获得同步,除非这种变化是Iterator主动致使的。(调用list.iterator()方法的缘由)ui
从上面的代码能够看到当Iterator.remove方法致使ArrayList列表发生变化时,他会更新cursor来同步这一变化。但其余方式致使的ArrayList变化,Iterator是没法感知的。ArrayList天然也不会主动通知Iterator们,那将是一个繁重的工做。Iterator到底仍是作了努力:为了防止状态不一致可能引起的没法设想的后果,Iterator会常常作checkForComodification检查,以防有变。若是有变,则以异常抛出,因此就出现了上面的异常。
若是对正在被迭代的集合进行结构上的改变(即对该集合使用add、remove或clear方法),那么迭代器就再也不合法(而且在其后使用该迭代器将会有ConcurrentModificationException异常被抛出).
若是使用迭代器本身的remove方法,那么这个迭代器就仍然是合法的。this
public static void deWeightList(List<String> des, List<String> sourse){ if(sourse == null || sourse.size() <= 0){ return; }l Iterator<String> listStr = sourse.iterator(); while (listStr.hasNext()){ String item = listStr.next(); for (String ditem: des) { if(item.equals(ditem)){ listStr.remove(); break; } } } logger.info("after deWight list size: " + sourse.size()); }
public static void deWeightList(Set<String> des, List<String> sourse) { if (sourse == null || sourse.size() <= 0) { return; } Iterator<String> listStr = sourse.iterator(); while (listStr.hasNext()) { String item = listStr.next(); if (des.contains(item)) { listStr.remove(); } } logger.info("after deWight list size: " + sourse.size()); }
public static void deWeightListByNewList(Set<String> des, List<String> sourse) { if (sourse == null || sourse.size() <= 0) { return; } Iterator<String> listStr = sourse.iterator(); List<String> existList = new ArrayList<String>(); while (listStr.hasNext()) { String item = listStr.next(); if(!des.contains(item)){ //TODO 对去重后的数据进行逻辑操做,不必定要删除,能够换个思路(是否能够直接逻辑操做,不必定非要再把数据写进集合后,而后遍历集合在进行逻辑操做) existList.add(item); //改为添加进新的list,考虑到list的删除效率慢(非要获得删除后的集合的状况下,不然走else) } // if (des.contains(item)) { // //listStr.remove(); //考虑到list的删除效率慢,此种方法对于大数据集合来讲不合适 // } } sourse.clear(); sourse = existList; logger.info("after deWight list size: " + sourse.size()); }
我的最为推荐的一种,由于效率最高,也能达到功能的须要。code
for (String item: maxArrayList) { if(testSet.contains(item)){ //TODO } }
下面是1000万的list和20000的list去重两种方式所花的时间,能够看出使用set去重的效率要高不少。 1.list结合list去重时间: 14:52:02,408 INFO [RunTest:37] start test list:17-11-07 14:52:02 14:59:49,828 INFO [ListUtils:66] after deWight list size: 9980000 14:59:49,829 INFO [RunTest:39] end test list:17-11-07 14:59:49 2.list结合set去重时间: 14:59:53,226 INFO [RunTest:44] start test set:17-11-07 14:59:53 15:01:30,079 INFO [ListUtils:80] after deWight list size: 9980000 15:01:30,079 INFO [RunTest:46] end test set:17-11-07 15:01:30 下面是2500万的list和20000的list去重两种方式所花的时间,能够看出使用set去重的效率要更加的高,(数据量越大越明显)。 我的对set的大小为1500万也进行了测试,方案3,4的效率也是很是的高。 1.list结合list去重时间: 15:17:47,114 INFO [RunTest:35] start test list, start time: 17-11-07 15:17:47 15:49:04,876 INFO [ListUtils:57] after deWight list size: 24980000 15:49:04,877 INFO [RunTest:39] end test list, end time: 17-11-07 15:49:04 2.list结合set去重时间: 15:49:17,842 INFO [RunTest:44] start test set, start time: 17-11-07 15:49:17 15:53:22,716 INFO [ListUtils:71] after deWight list size: 24980000 15:53:22,718 INFO [RunTest:48] end test set, end time: 17-11-07 15:53:22 3. List结合Set去重(不是直接对list进行删除,而是组装新list,考虑到list删除效率低) 17:18:44,583 INFO [RunTest:57] start test set, start time: 17-11-22 17:18:44 17:18:54,628 INFO [ListUtils:92] after deWight list size: 23500000 17:18:54,628 INFO [RunTest:61] end test set, end time: 17-11-22 17:18:48 4.遍历过程当中结合set去重:(我的最为推荐的缘由之一,效率高到使人爽到不行) 15:17:45,762 INFO [RunTest:24] start test foreach list directly, start time: 17-11-07 15:17:45 15:17:47,114 INFO [RunTest:32] end test foreach list directly, end time: 17-11-07 15:17:47
经过上述测试咱们能够看出,有时候咱们排重的时候,不必定要拍完重再对排重后的数据进行遍历,能够在遍历的过程当中进行排重,注意用来排重的那个集合放到Set中,
能够是HashSet,或者其余Set(推荐使用HashSet),由于Set的contains效率更高,比list高不少。htm
而后考虑到若是非要拿到去重后的list,考虑使用方案3《List结合Set去重(不是直接对list进行删除,而是组装新list,考虑到list删除效率低)》,经过测试,这种方法效率也是很是的高。
与方案4相比,稍微慢一点点。blog
对于上述方案1,测试也使用过组装新list的方式,而不是list.remove。可是效率仍是比较慢。
这是实际工做中总结出来的经验。但愿对你们有帮助!
欢迎你们来交流!
大数据List去重
代码地址以下:
http://www.demodashi.com/demo/12587.html
注:本文著做权归做者,由demo大师代发,拒绝转载,转载须要做者受权