Python文本爬虫实战

一:流程 目标:爬取目标网页的图片 1:获取网页源码 2:用Python读取源码 3:使用正则表达式从网页源码提取图片地址 4:根据图片地址下载图片 二:实现 1:源码获取 文本爬虫,是在已有的文本内容中爬取需要的信息,这区别于网络爬虫。 由于被检索的内容是现成的,因此,文本爬虫又叫“半自动爬虫”。 在本例中,我们以昵图网首页为目标网址,因此,我们先到昵图网首页,右键—>查看源代码—>保存源码到t
相关文章
相关标签/搜索