上一讲咱们讲到了从昵图网的首页下载图片到本地,可是咱们发现首页上面的大部分连接其实均可以进入到二级页面。正则表达式
在二级页面里面,咱们也能够一样进行图片的下载,经过层层循环咱们能够把网址的一部分图片下载到本地(有些图片的连接是动态的,并且网站也会检测盗链等反爬虫设置,这个后续再讲)。函数
首先,咱们整理下思路,在首页这里爬取图片的思路以下:源码分析
一、经过首页的地址获取首页的源代码网站
二、分析源代码中图片的连接地址,根据这个地址格式来组装正则表达式blog
三、根据正则表达式来批量匹配图片地址图片
四、根据匹配的地址进行循环下载到本地。源码
借鉴上面的思路,咱们在二级页面一样可使用这些步骤,只须要把首页的地址更换成二级页面的地址。循环
那么,二级页面的地址咱们在首页的源码分析的时候能够直接获取,存在另一个列表(如今为止有两个列表了,一个是用来存储页面的二级连接的,一个是用来存储本页面的图片地址的)。下载
因为咱们爬取图片的功能都是能够反复调用的,因此咱们把这部分的代码提取成一个函数。im
最终代码以下:
运行效果以下:
图片会一直下载。