Jsoup是一个java html解析器。它是一个用于解析HTML文档的java库。Jsoup提供api来从URL或HTML文件中提取和操做数据。它使用DOM,CSS和相似css
Jquery的方法来提取和操做文件。html
jsoup api中有6个包,提供用于开发jsoup应用程序的类和接口。红色标注的是经常使用的。java
org.jsoupnode
org.jsoup.examplesapi
org.jsoup.helperapp
org.jsoup.nodesspa
org.jsoup.parsercode
org.jsoup.safetyhtm
org.jsoup.salect对象
这个对象提供了一系列相似于DOM的方法来查找元素,抽取并处理其中的数据。具体以下:
(1)查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)
attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取全部属性
id(), className() and classNames() 经过标签的id,css的类名称,全部css的类名称获取信息
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容(例如:script和style标签)
tag() and tagName() 获取标签和标签名称
(3)操做HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName),prependElement(String tagName)
html(String value)