Python文本爬虫实战

时间 2021-01-11

原文原文链接

一：流程目标：爬取目标网页的图片 1：获取网页源码 2：用Python读取源码 3：使用正则表达式从网页源码提取图片地址 4：根据图片地址下载图片二：实现 1：源码获取文本爬虫，是在已有的文本内容中爬取需要的信息，这区别于网络爬虫。由于被检索的内容是现成的，因此，文本爬虫又叫“半自动爬虫”。在本例中，我们以昵图网首页为目标网址，因此，我们先到昵图网首页，右键—>查看源代码—>保存源码到t

>>阅读原文<<