日期:2012-7-20 来源:GBin1.comhtml
若是你曾经开发过内容聚合类网站的话,使用程序动态整合来自不一样页面或者网站内容的功能确定对于你来讲很是熟悉。一般使用java的话,咱们都会使用到一些HTML的解析,例如,httpparser,最先gbin1.com的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果,而且整合呈现给搜索用户,这也就是GBin1域名的由来。jquery
那么今天呢,咱们介绍另一个超棒的Java的HTML解析器 - jsoup,这个类库能够帮助你们实时的处理HTML。提供了很是方便的API来提取和处理数据,最重要的它使用相似jQuery的语法来处理DOM,CSS等,若是你使用过jQuery的话,就知道它处理DOM的强大方便之处。web
jsoup实现了WHATWG HTML5 的标准,和现代浏览器解析DOM的方式同样。主要功能:浏览器
基本上jsoup能够帮助你处理各类的HTML问题,而且帮助你验证非法的tag,建立一个干净的DOM树。网站
.....spa