python爬虫备忘(5)

今天开始学习python爬虫的scrapy库,它是一个爬虫框架,用户通过配置可以对规模较大的网站进行爬取。 它通过命令行的形式来进行调用。 5+2结构: 常见指令: 建立一个目录: init和items不需用户编写。 然后可以生成一个名为demo的爬虫文件。 可以看到spider目录下生成了一个demo.py文件。 name是爬虫的名字,allowed_domains是要爬取的域名,下面start
相关文章
相关标签/搜索