使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的...

日期:2012-7-20  来源:GBin1.comhtml

使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用

在线演示  本地下载 java

若是你曾经开发过内容聚合类网站的话,使用程序动态整合来自不一样页面或者网站内容的功能确定对于你来讲很是熟悉。一般使用java的话,咱们都会使用到一些HTML的解析,例如,httpparser,最先gbin1.com的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果,而且整合呈现给搜索用户,这也就是GBin1域名的由来。jquery

那么今天呢,咱们介绍另一个超棒的Java的HTML解析器 - jsoup,这个类库能够帮助你们实时的处理HTML。提供了很是方便的API来提取和处理数据,最重要的它使用相似jQuery的语法来处理DOMCSS等,若是你使用过jQuery的话,就知道它处理DOM的强大方便之处。web

主要特性

jsoup实现了WHATWG HTML5 的标准,和现代浏览器解析DOM的方式同样。主要功能:浏览器

  • 能够从URL,文件或者字符串中抓取和解析HTML
  • 使用DOM的查询和CSS选择器来查找和解压数据
  • 能够处理HTML的属性,元素和文本
  • 帮助用户处理递交的内容,而且防止XSS攻击
  • 输出干净的HTML

基本上jsoup能够帮助你处理各类的HTML问题,而且帮助你验证非法的tag,建立一个干净的DOM树。网站

.....spa

来源:使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用htm

相关文章
相关标签/搜索