Web Scraper 翻页——抓取分页器翻页的网页(Web Scraper 高级用法)| 简易数据分析 12

这是简易数据分析系列的第 12 篇文章。html

前面几篇文章咱们介绍了 Web Scraper 应对各类翻页的解决方法,好比说修改网页连接加载数据点击“更多按钮“加载数据下拉自动加载数据。今天咱们说说一种更常见的翻页类型——分页器web

原本想解释一下啥叫分页器,翻了一堆定义以为很繁琐,你们也不是第一年上网了,看张图就知道了。我找了个功能最全的例子,支持数字页码调整,上一页下一页和指定页数跳转。post

今天咱们就学学,Web Scraper 怎么对付这种类型的网页翻页。spa

其实咱们在本教程的第一个例子,抓取豆瓣电影 TOP 排行榜中,豆瓣的这个电影榜单就是用分页器分割数据的:code

但当时咱们是找网页连接规律抓取的,没有利用分页器去抓取。由于当一个网页的连接变化规律时,控制连接参数抓取是实现成本最低的;若是这个网页进能够翻页,可是连接的变化不是规律的,就得去会一会这个分页器了。视频

说这些理论有些枯燥,咱们举个翻页连接不规律的例子。htm

8 月 2 日是蔡徐坤的生日,为了表达庆祝,在微博上粉丝们给坤坤刷了 300W 的转发量,微博的转发数据正好是用分页器分割的,咱们就分析一下微博的转发信息页面,看看这类数据怎么用 Web Scraper 抓取。blog

这条微博的直达连接是:教程

https://weibo.com/1776448504/I0gyT8aeQ?type=repostelement

看了他那么多的视频,为了表达感激,咱们能够点进去出为坤坤加一份阅读量。

首先咱们看看第 1 页转发的连接,长这个样子:

https://weibo.com/1776448504/I0gyT8aeQ?type=repost

第 2 页长这个样子,注意到多了个 #_rnd1568563840036 参数:

https://weibo.com/1776448504/I0gyT8aeQ?type=repost#_rnd1568563840036

第 3 页参数为 #_rnd1568563861839

https://weibo.com/1776448504/I0gyT8aeQ?type=repost#_rnd1568563861839

第 4 页参数为 #_rnd1568563882276

https://weibo.com/1776448504/I0gyT8aeQ?type=repost#_rnd1568563882276

多看几个连接你就能够发现,这个转发网页的网址毫无规律可言,因此只能经过分页器去翻页加载数据。下面就开始咱们的实战教学环节。

1.建立 SiteMap

咱们首先建立一个 SiteMap,此次取名为 cxk,起始连接为 https://weibo.com/1776448504/I0gyT8aeQ?type=repost。

2.建立容器的 selector

由于咱们要点击分页器,外面的容器的类型咱们选为 Element Click,具体的参数解释能够看下图,咱们以前在简易数据分析 08详细解释过一次,这里就很少言了。

container 的预览是下图的样子:

分页器选择的过程能够参看下图:

3.建立子选择器

这几个子选择器都比较简单,类型都是文字选择器,咱们选择了评论用户名,评论内容和评论时间三种类型的内容。

4.抓取数据

按照 Sitemap cxk -> Scrape 的操做路径就能够抓取数据了。

5.一些问题

若是你看了我上面的教程立马去爬数据,可能遇到的第一个问题就是,300w 的数据,难道我所有爬下来吗?

听上去也不太现实,毕竟 Web Scraper 针对的数据量都是相对比较小的,几万数据都算多的了,数据再大你就得考虑爬取时间是否太长,数据如何存储,如何应对网址的反爬虫系统(好比说冷不丁的跳出一个验证码,这个 Web Scraper 是无能为力的)。

考虑到这个问题,前面的自动控制抓取数量的教程你又看过的话,可能想着用 :nth-of-type(-n+N) 控制抓取 N 条数据。若是你尝试了,就会发现这个方法根本没用。

失效的缘由其实涉及到一点点网页的知识了,感兴趣的话能够看看下面的解释,不感兴趣能够直接看最后的结论。

像我前面介绍的点击更多加载型网页下拉加载型网页,他们新加载的数据,是在当前页面追加的,你一直下拉,数据一直加载,同时网页的滚动条会愈来愈短,这意味着全部的数据都在同一个页面

当咱们用 :nth-of-type(-n+N) 控制加载数量时,其实至关于在这个网页设立一个计数器,当数据一直累加到咱们想要的数量时,就会中止抓取。

可是对于使用翻页器的网页,每次的翻页至关于刷新当前网页,这样每次都会设立一个计数器。

好比说你想抓取 1000 条数据,可是第 1 页网页只有 20 条数据,抓到最后一条了,还差 980 条;而后一翻页,又设立一个新的计数器,抓完第 2 页的最后一条数据,还差 980,一翻页计数器就重置,又变成 1000 了......因此这个控制数量的方法就失效了。

因此结论就是,若是翻页器类型的网页想提早结束抓取,只有断网的这种方法。固然,若是你有更好的方案,能够在评论里回复我,咱们能够互相讨论一下。

6.总结

分页器是一种很常见的网页分页方法,咱们能够经过 Web Scraper 中的 Element click 处理这种类型的网页,并经过断网的方法结束抓取。

7.推荐阅读

简易数据分析 05 | Web Scraper 翻页——控制连接批量抓取数据

简易数据分析 08 | Web Scraper 翻页——点击「更多按钮」翻页

简易数据分析 10 | Web Scraper 翻页——抓取「滚动加载」类型网页

简易数据分析 09 | Web Scraper 自动控制抓取数量 & Web Scraper 父子选择器

8.联系我

由于文章发在各大平台上,帐号较多不能及时回复评论和私信,有问题可关注公众号 ——「卤代烃实验室」,关注上车防失联。

img

原文出处:https://www.cnblogs.com/web-scraper/p/web_scraper_element_click_once.html

相关文章
相关标签/搜索