python爬虫备忘（5）

时间 2021-01-12

原文原文链接

今天开始学习python爬虫的scrapy库，它是一个爬虫框架，用户通过配置可以对规模较大的网站进行爬取。它通过命令行的形式来进行调用。 5+2结构：常见指令：建立一个目录： init和items不需用户编写。然后可以生成一个名为demo的爬虫文件。可以看到spider目录下生成了一个demo.py文件。 name是爬虫的名字，allowed_domains是要爬取的域名，下面start