一不当心一个月又过去了,事实上近期仍是小忙小忙的,废话很少说。直接进入今天的主题吧。javascript
Jsoup – Java HTML Parser, with best of DOM, CSS, and jquery.。看这个介绍就知道。这个就是方便我们 Java
和Android
来解析 HTML
的。html
要去爬别人的 HTML
标签的话,首先你确定得有必定的 HTML
的基础知识吧。java
比方说常用的标签。标签的相关属性,这个就很少说了,有相关问题都可以在 www.w3school.com.cn 的站点解决一下。jquery
最简单的,直接载入一个网页:android
Document document = Jsoup.connect("https://www.google.com").get();
那看到最后的 get()
方法聪明滴你必定就猜到另外一个相应的 post()
方法了吧。git
另外,http
请求的相关操做都是可以设置的。包括 header
请求參数。请求超时等等。除此以外,本地的文件(IO流)等都是可以直接解析的哈。github
Document document = Jsoup.connect("https://android-arsenal.com") .timeout(5000) .cookie("cookie", "cxxx") .header("xx", "xx") .userAgent("") .get();
以后我们就获得了一个 Document
的对象了。这个对象就是对整个请求网页的封装。相关内容都可以在里面获取。markdown
来吧,增长咱们有如下一段html标签需要解析:cookie
<div class="project-info clearfix"> <div class="header"> <div class="title"> <a href="/details/1/5442">RendererRecyclerViewAdapter</a> <a class="tags" href="/tag/199">Recycler Views</a> </div> <a class="badge free" href="/free">Free</a> <a class="badge new" href="/recent">New</a> </div> <div class="desc"> <p>A single adapter for the whole project.</p> <ul> <li>Now you do not need to implement adapters for RecyclerView.</li> <li>You can easily use several types of cells in a single list.</li> <li>Using this library will protect you from the appearance of any business logic in an adapter.</li> </ul> </div> <div class="ftr l"><i class="fa fa-calendar"></i> Mar 17, 2017</div> </div>
Jsoup
里面对于标签的寻找使用的方法是 select()
方法。这种方法不要太强大了。我们一步一步的来。app
比方咱们要在茫茫标签中找到 <div class="project-info clearfix">
的话,拿这里就是应该 findElementByClass()
,那么在 Jsoup
中是怎么定义这一块的呢?
哈哈,很是easy嘛,那就是 document.select("div.project-info clearfix")
咯,固然不是这样子的。等等 class
属性里面这个空格是什么意思啊?是否是一脸懵逼?这里终于的写法是 document.select("div.project-info.clearfix")
空格需要用 .
来处理。
Elements select = document.select("div.project-info.clearfix");
这里获得是一个集合。
咱们接下来就需要遍历这个集合,而后把里面的每一个标签都拔出来。
title 部分的解析,这里是一个 <div>
里面嵌套了一个 <a>
的标签。这里就涉及到了解析 <a>
标签了。这里咱们需要相应的 href
,也需要相应的 text
, Jsoup
提供了相应的两个方法 attr()
和 text()
。
Elements elements = e.select("div.title"); if (!elements.isEmpty()) { for (Element tittle : elements) { Element first = tittle.select("a[href]").first(); if (first != null) { title = first.text(); titleUrl = first.attr("href"); System.out.println("名称:" + title); System.out.println("详细地址:" + titleUrl); } Elements select1 = tittle.select("a.tags"); if (!select1.isEmpty()) { tag = select1.text(); tagUrl = select1.attr("href"); System.out.println("tags:" + tag); System.out.println("tagUrl:" + tagUrl); } } }
到这里。 <div>
和 <a>
标签的介绍基本搞定。接下来就是 <div class="desc">
的解析了。
<div class="desc"> <p>A single adapter for the whole project.</p> <ul> <li>Now you do not need to implement adapters for RecyclerView.</li> <li>You can easily use several types of cells in a single list.</li> <li>Using this library will protect you from the appearance of any business logic in an adapter.</li> </ul> </div>
这里又多了 <ul>
和 <li>
了。事实上道理是几乎相同的,但是这里它们既没有 class
也没有 id
。那这个咱们应该这么去解析呢?
这里仍是要回到 select()
方法,这里就需要使用到指定层级的方法了。
Elements select1 = e.select("div.desc > p"); String s = select1.toString();
对于 <dt>
<dd>
相关的标签,就可以使用 +
相关的链接符了。好比我想要仅仅解析 Tag
如下的相应的 Tag
名称和相关的 url
,这个应该怎么写呢?
<dt>Tag</dt> <dd><a href="/tag/9">Background Processing</a></dd> <dt>License</dt> <dd><a href="http://opensource.org/licenses/Apache-2.0" rel="nofollow" target="_blank">Apache License, Version 2.0</a> </dd>
代码就是这种,这里一不当心就又引出了 select()
方法的嵌套高级写法。
Elements select4 = element.select("dt:contains(Tag) + dd");
事实上不用太多解释啦。截图里面描写叙述的很是清楚了。最后一个是可以支持正则的匹配。
另外一种状况就是咱们需要的标签没有详细的 id
或者 class
,并且它没有直接相应的父标签或者某种固定的嵌套关系,好比如下这种状况:
<a id="favoriteButton" href="#" class="fa fa-star-o favorite tshadow" title="Add to favorites"></a> <a href="/details/1/5244">ImmediateLooperScheduler</a> <div id="githubInfoValue">
这里咱们仅仅需要解析到第二个 <a>
标签,那么需要怎么处理呢?这里就需要使用到 nextElementSibling()
的方法了。
Element ssa = h1.select("a#favoriteButton").first(); Element element = ssa.nextElementSibling(); String title = element.text();
有时候咱们仅仅知道这个 <div>
是以 什么开头或者是以什么结尾或者又是里面包括了某个单词的,那么这个时候就需要使用模糊查找了。
在 Jsoup
中定义了这些状况的相关 select()
写法,当中。以什么开头。是使用 a[href^=http]
,以什么结尾使用 a[href$=.jpg]
,包括什么就是使用 a[href*=/search/]
。
刚刚说的都是普通标签及其内容,假设我要获取js相关的标签以及内容呢?事实上也不难,仅仅是最后不是使用text()的方法。而是使用data()的方法了。
就是 Jsoup
最基本的就是写好这个 select()
方法,
final Elements script = document.select("script"); String js = script.first().data();
Android-Arsenal 这个站点不造你们伙儿有据说过没?这里给咱们Android开发人员提供了了一个信息交流展现平台。实时更新一些Android相关的App,开发库、以及Demo。而后。我看到它也有本身的client,因此一时好奇也打算下载下来看看。结果,client就是直接载入的网页,关键是广告满天飞。这个就让人很差受了(话说回来,人家不打广告赚点儿钱作这个平台干吗呢。)
因此灵机一动。为何我不本身搞一个 Android-Arsenal
的client呢?这样方便在手机上看到最新的东西嘛。因此就作了一个client。而使用的就是Jsoup
来爬去的相应的网页。而后就把相应 ads
的标签都过滤了,因此是很是清爽的啦。
固然功能也仅仅是先实现了一部分。喜欢的朋友可以点个星星或者下载使用哟。
最后来一波效果图:
项目地址:https://github.com/lovejjfg/Android-Arsenal
—- Edit By Joe At 2017 03 18 —-