nutch 搜索site dedup

这个版本发现有个大大的bug,就是搜索时同一页面出现重复,不同页面也出现重复。即使有check dedup功能,也不起作用。 后来把代码修改一个才行,被搞晕。。。     其实关键代码就在于NutchBean.search(query)中。以下来分析一下。   public Hits search(Query query) throws IOException { if (query.ge
相关文章
相关标签/搜索