今日概要python
今日详情app
1.递归爬取解析多页页面数据框架
- 需求:将糗事百科全部页码的做者和段子内容数据进行爬取切持久化存储dom
- 需求分析:每个页面对应一个url,则scrapy工程须要对每个页码对应的url依次发起请求,而后经过对应的解析方法进行做者和段子内容的解析。异步
实现方案:scrapy
1.将每个页码对应的url存放到爬虫文件的起始url列表(start_urls)中。(不推荐)ide
2.使用Request方法手动发起请求。(推荐)函数
代码展现:post
2.五大核心组件工做流程:url
3.post请求发送
- 问题:在以前代码中,咱们历来没有手动的对start_urls列表中存储的起始url进行过请求的发送,可是起始url的确是进行了请求的发送,那这是如何实现的呢?
- 解答:实际上是由于爬虫文件中的爬虫类继承到了Spider父类中的start_requests(self)这个方法,该方法就能够对start_urls列表中的url发起请求:
【注意】该方法默认的实现,是对起始的url发起get请求,若是想发起post请求,则须要子类重写该方法。
-方法: 重写start_requests方法,让其发起post请求: