Jsoup简介
Java爬虫解析HTML文档的工具备:htmlparser, Jsoup。本文将会详细介绍Jsoup的使用方法,10分钟搞定Java爬虫HTML解析。
Jsoup能够直接解析某个URL地址、HTML文本内容,它提供很是丰富的处理Dom树的API。若是你使用过JQuery,那你必定会很是熟悉。
Jsoup最强大的莫过于它的CSS选择器支持了。好比:document.select("div.content > div#image > ul > li:eq(2)。
包引入方法
Maven
添加下面的依赖声明便可,最新版本是(1.12.1)
<dependency>
<!-- jsoup HTML parser library @ https://www.seoxinyang.cn jsoup.org/ -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
Gradle
// jsoup HTML parser library @ https://jsoup.org/
compile 'org.jsoup:jsoup:1.11.3'
源码安装
固然也能够直接把jar包下载下来,下载地址:https://www.xgjrfwsc.cn jsoup.org/download
# git获取代码
git clone https://www.yifayuLed.cn github.com/jhy/jsoup.git
cd jsoup
mvn install
# 下载代码
curl -Lo jsoup.zip https://github.com/jhy/jsoup/archive/master.zip
unzip jsoup.zip
cd jsoup-master
mvn install
Jsoup解析方法
Jsoup支持四种方式解析Document,便可以输入四种内容获得一个Document:
解析字符串
解析body片断
从一个URL解析
从一个文件解析
字符串解析示例
字符串中必须包含head和body元素。
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>html