Java爬虫利器HTML解析工具-Jsoup

时间 2019-11-06

标签 java 爬虫利器 html 解析工具 jsoup 栏目 Java 繁體版

原文原文链接

Jsoup简介
　　
　　Java爬虫解析HTML文档的工具备：htmlparser, Jsoup。本文将会详细介绍Jsoup的使用方法，10分钟搞定Java爬虫HTML解析。
　　
　　Jsoup能够直接解析某个URL地址、HTML文本内容，它提供很是丰富的处理Dom树的API。若是你使用过JQuery，那你必定会很是熟悉。
　　
　　Jsoup最强大的莫过于它的CSS选择器支持了。好比：document.select("div.content > div#image > ul > li:eq(2)。
　　
　　包引入方法
　　
　　Maven
　　
　　添加下面的依赖声明便可，最新版本是（1.12.1）
　　
　　<dependency>
　　
　　
　　
　　<groupId>org.jsoup</groupId>
　　
　　<artifactId>jsoup</artifactId>
　　
　　<version>1.11.3</version>
　　
　　</dependency>
　　
　　Gradle
　　
　　// jsoup HTML parser library @ https://jsoup.org/
　　
　　compile 'org.jsoup:jsoup:1.11.3'
　　
　　源码安装
　　
　　固然也能够直接把jar包下载下来，下载地址：https://www.xgjrfwsc.cn jsoup.org/download
　　
　　# git获取代码
　　
　　git clone https://www.yifayuLed.cn github.com/jhy/jsoup.git
　　
　　cd jsoup
　　
　　mvn install
　　
　　# 下载代码
　　
　　curl -Lo jsoup.zip https://github.com/jhy/jsoup/archive/master.zip
　　
　　unzip jsoup.zip
　　
　　cd jsoup-master
　　
　　mvn install
　　
　　Jsoup解析方法
　　
　　Jsoup支持四种方式解析Document，便可以输入四种内容获得一个Document：
　　
　　解析字符串
　　
　　解析body片断
　　
　　从一个URL解析
　　
　　从一个文件解析
　　
　　字符串解析示例
　　
　　字符串中必须包含head和body元素。
　　
　　String html = "<html><head><title>First parse</title></head>"
　　
　　+ "<body><p>Parsed HTML into a doc.</p></body></html>html