今日概要html
今日详情python
一.Scrapy的日志等级web
- 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。json
- 日志信息的种类:cookie
ERROR : 通常错误并发
WARNING : 警告app
INFO : 通常的信息dom
DEBUG : 调试信息scrapy
- 设置日志信息指定输出:ide
在settings.py配置文件中,加入
LOG_LEVEL = ‘指定日志信息种类’便可。
LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。
二.请求传参
- 在某些状况下,咱们爬取的数据不在同一个页面中,例如,咱们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其余电影详情在其二级子页面中。这时咱们就须要用到请求传参。
- 案例展现:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的上映时间,导演,片长进行爬取。
爬虫文件:
items文件:
管道文件:
三.如何提升scrapy的爬取效率
测试案例:爬取校花网校花图片 www.521609.com
配置文件: