本篇文章包括如下内容:css
- 前言
- jsoup的简介
- jsoup的配置
- jsoup的使用
- 结语
对于Android初学者想要作项目时,最大的烦恼是什么?毫无疑问是数据源的缺少,固然能够选择第三方接口提供数据,也可使用网络爬虫获取数据,这样就不用第三方数据做为支持。原本是打算爬一些购物网站的数据,因为他们的反爬作得好,因此没办法爬到数据,只能爬取糗事百科的数据,或许聪明的你会想到能够高仿个糗事百科做为本身的练手项目,利用jsoup是彻底没问题的html
jsoup的学习须要结合前端的基础知识,爬取前端的数据,若是你学过JS,那么你能够本身彻底不用看文档的状况下,使用该框架,由于其设计与JS的使用几乎相同,废话很少说,开车啦前端
使用项目原话:jsoup是一个Java库来处理实际的HTML。它提供了一个很是方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法jquery
项目地址:https://github.com/jhy/jsoup
中文文档:http://www.open-open.com/jsoup/git
jsoup的配置很简单,须要在gradle中添加如下依赖github
因为jsoup须要获取网络数据,因此记得添加网络权限缓存
1、获取HTMLcookie
jsoup提供两种网络请求,get和post,使用代码也及其简单,咱们首先爬取糗事百科首页的HTML。注意:因为是网络请求操做,必须放在子线程中运行,不然4.4以上的版本会报错网络
① get方式框架
② post方式
这里对post的参数介绍一下
- connect:设置链接的Url
- data:设置post的键值对数据
- userAgent:设置用户代理(请求头的东西,能够判断你是PC仍是Mobile端)
- cookie:设置缓存
- timeout:设置请求超时
- post:发送post请求
既然已经获取HTML的Document对象了,接下来就是分析Html元素的时候了
2、获取Html元素
① 网页端
以糗事百科为例子,咱们查看糗事百科首页的数据对应的Html元素是什么,咱们能够经过F12,找到对应的Html元素
能够看到一个a标签就是文章详情的内容,咱们能够经过这个a标签的class=”contentHerf”做为惟一标识来获取该连接,获取以后,继续爬取详情页的文章详细内容,因此咱们经过爬取的a标签的连接进入该文章的详情页
固然也有一些详情页有图片的,咱们能够经过图片的的class=”thumb”做为惟一标识来爬取图片里面的连接
因为糗事百科采用分页加载的状况,咱们须要在爬取完第一张内容后,接着爬取第二章的内容,下面是糗事百科的分页Url的规则,很简单,咱们能够经过一个循环就能够了
好了,分析完网页端以后,就应该在咱们的Android端采用代码,将上面的步骤实现出来了
② Android端
经过上面的分析后,能够总结咱们须要实现的步骤有:
- 爬取主页的详情页url
- 进入详情页爬取内容和图片
- 循环爬取第二页、第三页…
聪明的你,可能会想到第四步第五步…
- 封装Bean对象
- 使用ListView填充内容
- 爬取日期、做者、评论等内容完善项目
1) 爬取主页的详情页url
爬取主页的url能够经过a标签的class=”contentHerf”,咱们经过jsoup的属性选择器来实现,这里会用到css知识,jsoup中文文档也有很详细的介绍
这里对使用到的对象进行介绍
- Document:至关于一个Html文件
- Elements:至关于一个标签的集合
- Element:至关于一个标签
这里要注意Elements与Element的toString()方法和text()方法
- toString():打印出来的是标签的Html内容
- text():打印出来的是标签对应的文本内容
css选择器
- select():获取符合属性选择器要求的标签内容
- 或getElementById:获取符合ID选择器要求的标签内容
- 或getElementsByTag:获取符合Tag选择器要求的标签内容
2) 进入详情页爬取内容和图片
这段代码也至关简单,这里就很少解释了
3) 循环爬取第二页、第三页…
这里只须要嵌套一个循环进去就能够了,完整代码以下
4) 固然,咱们爬取到的内容以后,毫无疑问就是要封装成对象,经过ArrayList存储起来,这样你的数据源就解决了
5) 后面爬取做者、日期、评论等信息就由大家去练习了,雅思7分有多难而后界面一仿,项目就出来了
3、爬取结果
网络爬虫虽然带来了不少数据源的问题,但不少网站都已经经过一些技术实现反爬虫的效果了,因此你们仍是以学习jsoup为主,不论是Android端仍是Web端jsoup的用处很普遍,因此掌握起来是必须的,据说豆瓣和知乎均可以爬出来哦,想作项目的同窗能够去试试哦