Python数据采集-开始爬虫

时间 2021-01-07

原文原文链接

目标捉取网页外链，递归循环实现。一遍历单个域名网页爬虫，就是对目标网页进行捉取，然后遍历到数据信息，然后有链接的继续遍历，如此回调。第一步：将页面的所有链接获取运行效果图发现会存在些没用用的数据，有些href的值只是作为页面块的跳转，我们可以使用正则表达式进行优化过滤掉，只获取带有HTML结尾的链接第二步：递归获取网页第一步我们基本把一个网页的所有链接地址获取到，第二步显然是获取这

>>阅读原文<<