Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本篇文章包括如下内容：css

前言

jsoup的简介

jsoup的配置

jsoup的使用

结语

对于Android初学者想要作项目时，最大的烦恼是什么？毫无疑问是数据源的缺少，固然能够选择第三方接口提供数据，也可使用网络爬虫获取数据，这样就不用第三方数据做为支持。原本是打算爬一些购物网站的数据，因为他们的反爬作得好，因此没办法爬到数据，只能爬取糗事百科的数据，或许聪明的你会想到能够高仿个糗事百科做为本身的练手项目，利用jsoup是彻底没问题的html

jsoup的学习须要结合前端的基础知识，爬取前端的数据，若是你学过JS，那么你能够本身彻底不用看文档的状况下，使用该框架，由于其设计与JS的使用几乎相同，废话很少说，开车啦前端

使用项目原话：jsoup是一个Java库来处理实际的HTML。它提供了一个很是方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法jquery

项目地址：https://github.com/jhy/jsoup
中文文档：http://www.open-open.com/jsoup/git

jsoup的配置很简单，须要在gradle中添加如下依赖github

因为jsoup须要获取网络数据，因此记得添加网络权限缓存

1、获取HTMLcookie

jsoup提供两种网络请求，get和post，使用代码也及其简单，咱们首先爬取糗事百科首页的HTML。注意：因为是网络请求操做，必须放在子线程中运行，不然4.4以上的版本会报错网络

① get方式框架

② post方式

这里对post的参数介绍一下

connect：设置链接的Url
data：设置post的键值对数据
userAgent：设置用户代理（请求头的东西，能够判断你是PC仍是Mobile端）
cookie：设置缓存
timeout：设置请求超时
post：发送post请求

既然已经获取HTML的Document对象了，接下来就是分析Html元素的时候了

2、获取Html元素

① 网页端

以糗事百科为例子，咱们查看糗事百科首页的数据对应的Html元素是什么，咱们能够经过F12，找到对应的Html元素

能够看到一个a标签就是文章详情的内容，咱们能够经过这个a标签的class=”contentHerf”做为惟一标识来获取该连接，获取以后，继续爬取详情页的文章详细内容，因此咱们经过爬取的a标签的连接进入该文章的详情页

固然也有一些详情页有图片的，咱们能够经过图片的的class=”thumb”做为惟一标识来爬取图片里面的连接

因为糗事百科采用分页加载的状况，咱们须要在爬取完第一张内容后，接着爬取第二章的内容，下面是糗事百科的分页Url的规则，很简单，咱们能够经过一个循环就能够了

好了，分析完网页端以后，就应该在咱们的Android端采用代码，将上面的步骤实现出来了

② Android端

经过上面的分析后，能够总结咱们须要实现的步骤有：

爬取主页的详情页url
进入详情页爬取内容和图片
循环爬取第二页、第三页…

聪明的你，可能会想到第四步第五步…

封装Bean对象
使用ListView填充内容
爬取日期、做者、评论等内容完善项目

1）爬取主页的详情页url

爬取主页的url能够经过a标签的class=”contentHerf”，咱们经过jsoup的属性选择器来实现，这里会用到css知识，jsoup中文文档也有很详细的介绍

这里对使用到的对象进行介绍

Document：至关于一个Html文件
Elements：至关于一个标签的集合
Element：至关于一个标签

这里要注意Elements与Element的toString()方法和text()方法

toString()：打印出来的是标签的Html内容
text()：打印出来的是标签对应的文本内容

css选择器

select()：获取符合属性选择器要求的标签内容
或getElementById：获取符合ID选择器要求的标签内容
或getElementsByTag：获取符合Tag选择器要求的标签内容

2）进入详情页爬取内容和图片

这段代码也至关简单，这里就很少解释了

3）循环爬取第二页、第三页…

这里只须要嵌套一个循环进去就能够了，完整代码以下

4）固然，咱们爬取到的内容以后，毫无疑问就是要封装成对象，经过ArrayList存储起来，这样你的数据源就解决了

5）后面爬取做者、日期、评论等信息就由大家去练习了，雅思7分有多难而后界面一仿，项目就出来了

3、爬取结果

网络爬虫虽然带来了不少数据源的问题，但不少网站都已经经过一些技术实现反爬虫的效果了，因此你们仍是以学习jsoup为主，不论是Android端仍是Web端jsoup的用处很普遍，因此掌握起来是必须的，据说豆瓣和知乎均可以爬出来哦，想作项目的同窗能够去试试哦