在运用爬虫时,须要从网页元素中抽取所须要的属性,文本或者HTML ,在这里,运用jsoup来获取这些信息的话会很是方便。html
在运用jsoup是,须要下载相应的jar包java
如下是一个简单的例子:3d
String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>"; Document doc = Jsoup.parse(html); //解析HTML字符串返回一个Document实现 Element link = doc.select("a").first(); //查找第一个a元素 String text = doc.body().text(); // "An example link"//取得字符串中的文本 String linkHref = link.attr("href"); // "http://example.com/"//取得连接地址 String linkText = link.text(); // "example""//取得连接地址中的文本 String linkOuterH = link.outerHtml(); // "<a href="http://example.com"><b>example</b></a>" String linkInnerH = link.html(); // "<b>example</b>"//取得连接内的html内容