python-28：多级页面爬取

时间 2019-12-06

标签 python 多级页面栏目 Python 繁體版

原文原文链接

学习了这么久，其实到这里才算是真正意义上的爬虫
对于爬虫，有一个颇有意思并且很形象的解释，把互联网当成一张蜘蛛网，那么，每个网页连接都是一个节点，这个节点链接这通往其余节点的路，而爬虫，就像是蜘蛛网上的蜘蛛，它可以顺着一个节点爬到另外一个节点，只要时间足够长，它就能把整张蜘蛛网爬完，也就获取到了整个互联网的数据
经过前面对网页源码的分析咱们也能够知道，网页源码中带下划线的内容是一些连接，这些连接能够是另外一个网站的网址，也能够是一张图片的网址，经过连接咱们能够跳转到其余的网站，其余网站的源码中又有连接，因此，咱们能够在不少网页之中跳转，经过RE，咱们能够获取到咱们想要的信息
拿咱们如今进行的极视界这个实例来讲，打开第一个网页会出现一些摄影做品相册的首页和网址，而后点击相册首页能够进入相册，查看相册里面的图片
这里涉及到了两个网页
1. 极视界首页，首页列出了摄影做品的相册网址和相册名字学习

2. 相册的网址，能够浏览相册的图片
这就要求咱们写的爬虫程序可以自动在网页当中跳转而且跳转到正确的页面以后使用RE将图片的网址获取出来，这就是爬虫的意义
网站

因此这一节咱们就来看一下怎么使用爬虫实现多级页面的跳转url

实际上有不少种办法，可是我一开始想到的只有两个
spa

1. 使用爬虫模拟咱们点击网页连接的操做图片

2. 在首页代码中找出相册的网址，而后读取这个网址的源码再进行分析源码

第一个看起来很难实现，至少咱们如今所学的知识还不能实现，第二个实际上就是进行两次网页源代码的爬取，这个看起来比较容易实现，因此，试试第二种方法
互联网

经过前面的分析咱们知道，要实现这个功能咱们至少须要3个步骤程序

1. 在第一个页面的源码中找到相册网址的连接
2. 将相册主页做为url传入再进行一次爬取源代码的操做方法

3. 经过对源码的分析找到图片的URL，并经过RE将URL提取出来

数据