java海量数据的简单清洗

这周接到了一个对爬取数据进行清理的任务,具体需求为,有一张接近百万的key值表,每个key对应一个对象,可是在es中存在大量的类似对象,须要按照类似度清除key值表中重复的对象。java 下面简单的介绍一下本人的思路。web 文件准备 由于百万级数据的清理在单机模式下实际上是很耗时的操做,因此咱们须要考虑到一些异常的发生,而且要暂存一下重复的key值,因此须要构建三个临时文件json touch
相关文章
相关标签/搜索