大数据List去重

时间 2019-12-01

标签数据 list 繁體版

原文原文链接

代码地址以下：
http://www.demodashi.com/demo/12587.htmlhtml

MaxList模块主要是对Java集合大数据去重的相关介绍。java

背景: 最近在项目中遇到了List集合中的数据要去重，大概一个2500万的数据，开始存储在List中，须要跟一个2万的List去去重。ide

直接两个List去重

说到去重，稍微多讲一点啊，去重的时候有的小伙伴可能直接对2500万List foreach循环后直接删除,
其实这种是错误的(java.util.ConcurrentModificationException)，你们能够本身去试一下；(注: for循环遍历删除不报错，可是效率低，不推荐使用)
首先你须要去看下foreach和迭代器的实现。foreach的实现就是用到了迭代器，因此你在foreach的时候对list进行删除操做，
迭代器Iterator没法感知到list删除了，因此会报错。直接贴代码解释下。测试

ArrayList中Iterator的实现:大数据

private class Itr implements Iterator<E> {
    int cursor;       // index of next element to return
    int lastRet = -1; // index of last element returned; -1 if no such
    int expectedModCount = modCount;

    public boolean hasNext() {
        return cursor != size;
    }

    @SuppressWarnings("unchecked")
    public E next() {
        checkForComodification();
        int i = cursor;
        if (i >= size)
            throw new NoSuchElementException();
        Object[] elementData = ArrayList.this.elementData;
        if (i >= elementData.length)
            throw new ConcurrentModificationException();
        cursor = i + 1;
        return (E) elementData[lastRet = i];
    }

    public void remove() {
        if (lastRet < 0)
            throw new IllegalStateException();
        checkForComodification();

        try {
            ArrayList.this.remove(lastRet);
            cursor = lastRet;
            lastRet = -1;
            expectedModCount = modCount;
        } catch (IndexOutOfBoundsException ex) {
            throw new ConcurrentModificationException();
        }
    }

    @Override
    @SuppressWarnings("unchecked")
    public void forEachRemaining(Consumer<? super E> consumer) {
        Objects.requireNonNull(consumer);
        final int size = ArrayList.this.size;
        int i = cursor;
        if (i >= size) {
            return;
        }
        final Object[] elementData = ArrayList.this.elementData;
        if (i >= elementData.length) {
            throw new ConcurrentModificationException();
        }
        while (i != size && modCount == expectedModCount) {
            consumer.accept((E) elementData[i++]);
        }
        // update once at end of iteration to reduce heap write traffic
        cursor = i;
        lastRet = i - 1;
        checkForComodification();
    }

    final void checkForComodification() {
        if (modCount != expectedModCount)
            throw new ConcurrentModificationException();
    }
}

经过上述的ArrayList里面的Iterator迭代器的实现咱们能够看到:
基本上ArrayList采用size属性来维护自已的状态，而Iterator采用cursor来来维护自已的状态。
当你直接在foreach里面对list进行删除操做，size出现变化时，cursor并不必定可以获得同步，除非这种变化是Iterator主动致使的。(调用list.iterator()方法的缘由)ui

从上面的代码能够看到当Iterator.remove方法致使ArrayList列表发生变化时，他会更新cursor来同步这一变化。但其余方式致使的ArrayList变化，Iterator是没法感知的。ArrayList天然也不会主动通知Iterator们，那将是一个繁重的工做。Iterator到底仍是作了努力：为了防止状态不一致可能引起的没法设想的后果，Iterator会常常作checkForComodification检查，以防有变。若是有变，则以异常抛出，因此就出现了上面的异常。
若是对正在被迭代的集合进行结构上的改变（即对该集合使用add、remove或clear方法），那么迭代器就再也不合法（而且在其后使用该迭代器将会有ConcurrentModificationException异常被抛出）.
若是使用迭代器本身的remove方法，那么这个迭代器就仍然是合法的。this

public static void deWeightList(List<String> des, List<String> sourse){
        if(sourse == null || sourse.size() <= 0){
            return;
        }l
        Iterator<String> listStr = sourse.iterator();
        while (listStr.hasNext()){
            String item = listStr.next();
            for (String ditem: des) {
                if(item.equals(ditem)){
                    listStr.remove();
                    break;
                }
            }

        }
        logger.info("after deWight list size: " + sourse.size());
}

List结合Set去重

public static void deWeightList(Set<String> des, List<String> sourse) {
        if (sourse == null || sourse.size() <= 0) {
            return;
        }
        Iterator<String> listStr = sourse.iterator();
        while (listStr.hasNext()) {
            String item = listStr.next();
            if (des.contains(item)) {
                listStr.remove();
            }
        }
        logger.info("after deWight list size: " + sourse.size());
}

List结合Set去重(不是直接对list进行删除，而是组装新list，考虑到list删除效率低)

public static void deWeightListByNewList(Set<String> des, List<String> sourse) {
    if (sourse == null || sourse.size() <= 0) {
        return;
    }
    Iterator<String> listStr = sourse.iterator();
    List<String> existList = new ArrayList<String>();
    while (listStr.hasNext()) {
        String item = listStr.next();
        if(!des.contains(item)){
            //TODO 对去重后的数据进行逻辑操做，不必定要删除，能够换个思路（是否能够直接逻辑操做，不必定非要再把数据写进集合后，而后遍历集合在进行逻辑操做）
            existList.add(item); //改为添加进新的list，考虑到list的删除效率慢(非要获得删除后的集合的状况下，不然走else)
        }
//            if (des.contains(item)) {
//                //listStr.remove(); //考虑到list的删除效率慢，此种方法对于大数据集合来讲不合适
//            }
    }
    sourse.clear();
    sourse = existList;
    logger.info("after deWight list size: " + sourse.size());
}

遍历过程当中去重

我的最为推荐的一种,由于效率最高，也能达到功能的须要。code

for (String item: maxArrayList) {
    if(testSet.contains(item)){
        //TODO
    }
}

测试结果以下

下面是1000万的list和20000的list去重两种方式所花的时间,能够看出使用set去重的效率要高不少。

1.list结合list去重时间:
14:52:02,408 INFO  [RunTest:37] start test list:17-11-07 14:52:02
14:59:49,828 INFO  [ListUtils:66] after deWight list size: 9980000
14:59:49,829 INFO  [RunTest:39] end test list:17-11-07 14:59:49

2.list结合set去重时间:
14:59:53,226 INFO  [RunTest:44] start test set:17-11-07 14:59:53
15:01:30,079 INFO  [ListUtils:80] after deWight list size: 9980000
15:01:30,079 INFO  [RunTest:46] end test set:17-11-07 15:01:30

下面是2500万的list和20000的list去重两种方式所花的时间,能够看出使用set去重的效率要更加的高，(数据量越大越明显)。
我的对set的大小为1500万也进行了测试，方案3,4的效率也是很是的高。

1.list结合list去重时间:
15:17:47,114 INFO  [RunTest:35] start test list, start time: 17-11-07 15:17:47
15:49:04,876 INFO  [ListUtils:57] after deWight list size: 24980000
15:49:04,877 INFO  [RunTest:39] end test list, end time: 17-11-07 15:49:04

2.list结合set去重时间:
15:49:17,842 INFO  [RunTest:44] start test set, start time: 17-11-07 15:49:17
15:53:22,716 INFO  [ListUtils:71] after deWight list size: 24980000
15:53:22,718 INFO  [RunTest:48] end test set, end time: 17-11-07 15:53:22

3. List结合Set去重(不是直接对list进行删除，而是组装新list，考虑到list删除效率低)
17:18:44,583 INFO  [RunTest:57] start test set, start time: 17-11-22 17:18:44
17:18:54,628 INFO  [ListUtils:92] after deWight list size: 23500000
17:18:54,628 INFO  [RunTest:61] end test set, end time: 17-11-22 17:18:48

4.遍历过程当中结合set去重:(我的最为推荐的缘由之一，效率高到使人爽到不行)
15:17:45,762 INFO  [RunTest:24] start test foreach list directly, start time: 17-11-07 15:17:45
15:17:47,114 INFO  [RunTest:32] end test foreach list directly, end time: 17-11-07 15:17:47

总结

经过上述测试咱们能够看出，有时候咱们排重的时候，不必定要拍完重再对排重后的数据进行遍历，能够在遍历的过程当中进行排重，注意用来排重的那个集合放到Set中，
能够是HashSet,或者其余Set(推荐使用HashSet),由于Set的contains效率更高，比list高不少。htm

而后考虑到若是非要拿到去重后的list，考虑使用方案3《List结合Set去重(不是直接对list进行删除，而是组装新list，考虑到list删除效率低)》，经过测试，这种方法效率也是很是的高。
与方案4相比，稍微慢一点点。blog

对于上述方案1，测试也使用过组装新list的方式，而不是list.remove。可是效率仍是比较慢。

这是实际工做中总结出来的经验。但愿对你们有帮助！
欢迎你们来交流！

演示图

项目文件结构截图

大数据List去重

代码地址以下：
http://www.demodashi.com/demo/12587.html

注：本文著做权归做者，由demo大师代发，拒绝转载，转载须要做者受权

1. android List去掉重复数据
2. c# List去重
3. list去重
4. list 去重
5. List去重
6. Java List 去重
7. 【C#】list 去重
8. 大数据去重方案
9. Java根据list中对象的属性找出list重复数据或去除list重复数据
10. python之list去重
更多相关文章...
• MySQL DISTINCT：去重（过滤重复数据） - MySQL教程
• PHP list() 函数 - PHP参考手册
• Flink 数据传输及反压详解
• TiDB 在摩拜单车在线数据业务的应用和实践