网络爬虫之网页排重：语义指纹

时间 2020-02-15

原文原文链接

引言：网络爬虫让咱们高效地从网页获取到信息，但网页的重复率很高，网页须要按内容作文档排重，而判断文档的内容重复有不少种方法，语义指纹是其中比较高效的方法。
本文选自《网络爬虫全解析——技术、原理与实践》。算法

　　现代社会，有效信息对人来讲就像氧气同样不可或缺。互联网让有效信息的收集工做变得更容易。当你在网上冲浪时，网络爬虫也在网络中穿梭，自动收集互联网上有用的信息。
　　自动收集和筛选信息的网络爬虫让有效信息的流动性加强，让咱们更加高效地获取信息。随着愈来愈多的信息显现于网络，网络爬虫也愈来愈有用。
　　不一样的网站间转载内容的状况很常见。即便在同一个网站，有时候不一样的URL地址可能对应同一个页面，或者存在一样的内容以多种方式显示出来，因此，网页须要按内容作文档排重。
　　例如，一个企业商品搜索。搜商品名，有一家公司发的商品名字都同样，结果这家公司发的商品都显示在前面，可是要求一家企业只显示一条类似的商品在前面，能够把近似重复的文档权重下降，只保留一个文档不下降权重。
　　判断文档的内容重复有不少种方法，语义指纹的方法比较高效。语义指纹是直接提取一个文档的二进制数组表示的语义，经过比较相等来判断网页是否重复。语义指纹是一个很大的数组，所有存放在内存会致使内存溢出，普通的数据库效率过低，因此采用内存数据库Berkeley DB。能够经过Berkeley DB判断该语义指纹是否已经存在。另一种方法是经过布隆过滤器来判断语义指纹是否重复。
　　提取网页语义指纹的方法是：从净化后的网页中，选取最有表明性的一组关键词，并使用该关键词组生成一个语义指纹。经过比较两个网页的语义指纹是否相同来判断两个网页是否类似。
　　网络上一度出现过不少篇关于“罗玉凤征婚”的新闻报道，其中的两篇新闻内容对好比下表。
　　数据库

　　对于这两篇内容相同的新闻，有可能提取出一样的关键词：“罗玉凤”“征婚”“北大”“清华”“硕士”，这就表示这两篇文档的语义指纹也相同。
　　为了提升语义指纹的准确性，须要考虑到同义词，例如，“北京华联”和“华联商厦”能够当作相赞成义的词。最简单的判断方法是作同义词替换。把“开业之初，比这还要多的质疑的声音环绕在北京华联决策者的周围”替换为“开业之初，比这还要多的质疑的声音环绕在华联商厦决策者的周围”。
　　设计同义词词典的格式是：每行一个义项，前面是基本词，后面是一个或多个被替换的同义词，请看下面的例子。数组

华联商厦北京华联华联超市微信

　　这样能够把“北京华联”或“华联超市”替换成“华联商厦”。对指定文本，要从前日后查找同义词词库中每一个要替换的词，而后实施替换。同义词替换的实现代码分为两步。首先是查找Trie树结构的词典过程。网络

public void checkPrefix(String sentence,int offset,PrefixRet ret) {  if (sentence == null || root == null || "".equals(sentence)) {
    ret.value = Prefix.MisMatch;
    ret.data = null;
    ret.next = offset;
    return ;
  }
  ret.value = Prefix.MisMatch;//初始返回值设为没匹配上任何要替换的词
  TSTNode currentNode = root;
  int charIndex = offset;
  while (true) {    if (currentNode == null) {
          return;
    }
    int charComp = sentence.charAt(charIndex) - currentNode.splitchar;    if (charComp == 0) {
      charIndex++;      if(currentNode.data != null){
        ret.data = currentNode.data;//候选最长匹配词
        ret.value = Prefix.Match;
        ret.next = charIndex;
      }      if (charIndex == sentence.length()) {
        return; //已经匹配完
      }      currentNode = currentNode.eqKID;
    } else if (charComp < 0) {      currentNode = currentNode.loKID;
    } else {      currentNode = currentNode.hiKID;
    }
  }
}

　　而后是同义词替换过程。app

//输入待替换的文本，返回替换后的文本public static String replace(String content) throws Exception{  int len = content.length();
  StringBuilder ret = new StringBuilder(len);
  SynonymDic.PrefixRet matchRet = new SynonymDic.PrefixRet(null,null);  

  for(int i=0;i<len;){    //检查是否存在从当前位置开始的同义词
    synonymDic.checkPrefix(content,i,matchRet);    if(matchRet.value == SynonymDic.Prefix.Match) //若是匹配上，则替换同义词
    {
      ret.append(matchRet.data);//把替换词输出到结果
      i=matchRet.next;//下一个匹配位置
    }    else //若是没有匹配上，则从下一个字符开始匹配
    {
      ret.append(content.charAt(i));
      ++i;
    }
  }   return ret.toString();
}

　　语义指纹生成算法以下所示。ide

第1步：将每一个网页分词表示成基于词的特征项，使用TF*IDF做为每一个特征项的权值。地名、专有名词等，名词性的词汇每每有更高的语义权重。网站
第2步：将特征项按照词权值排序。ui
第3步：选取前n个特征项，而后从新按照字符排序。若是不排序，关键词就找不到对应关系。spa
第4步：调用MD5算法，将每一个特征项串转化为一个128位的串，做为该网页的指纹。

调用fseg.result.FingerPrint中的方法。

String fingerPrint = getFingerPrint("","昨日，省城渊明北路一名17岁的少年在6楼晾毛巾时失足坠楼，摔在楼下的一辆面包车上。面包车受冲击变形时吸取了巨大的副作用力能量，从而“救”了少年一命。目前，伤者尚无生命危险。据一位目睹者介绍，事故发生在下午2时40分许，当时这名在某美发店工做的少年正站在阳台上晾毛巾，因雨天阳台湿滑而不当心摔下。 记者来到抢救伤者的医院了解到，这名少年名叫李嘉诚，今年17岁，系丰城市人。李嘉诚受伤后，他表姐已赶到医院陪护。据医生介绍，伤者主要伤在头部，具体伤情还有待进一步检查。");String md5Value = showBytes(getMD5(fingerPrint));
System.out.println("FingerPrint:"+fingerPrint+" md5:"+md5Value);

　　MD5能够将字符串转化成几乎无冲突的hash值，可是MD5速度比较慢，MurmurHash或者JenkinsHash也能够生成冲突不多的hash值，在Lucene的企业搜索软件Solr1.4版本中提供了JenkinsHash实现的语义指纹，叫做Lookup3Signature。调用MurmurHash生成64位的Hash值的代码以下所示。

public static long stringHash64(String str, int initial) {  byte[] bytes = str.getBytes();  return MurmurHash.hash64(bytes, initial);
}

　　本文选自《网络爬虫全解析——技术、原理与实践》，点此连接可在博文视点官网查看此书。
　　　　　　　　　　　　　　　　　　　　
　　想及时得到更多精彩文章，可在微信中搜索“博文视点”或者扫描下方二维码并关注。
　　　　　　　　　　　　　　　　　　　　　　　

此外，本周正在进行一项热门活动——《尽在双11》阿里专家问答！
《尽在双11》的做者乐田、仁重正经过开源问答来答复读者有关《尽在双11》这本书的疑问~更多好问题，期待你来问！