scrapy爬取Drupal网站，提示404错误

时间 2019-12-07

原文原文链接

最近在学习Python的爬虫。之前坚持用nodejs作爬虫。前两天闲得无聊，在慕课上看了下scrapy的课程。而后发现这个框架的设计真模块化。因此就开始动手用scrapy爬取一些东西。
而后个人目标网站是个drupal作的。分页抓取的时候，首页是正常的，爬取第二页的时候，大几率是抛错提示：404，要么就是给我返回了一些脏数据。html

这个网站还真是老谋深算啊。而后我仔细分析了下网站的请求头。而后加上了以下两条，请求就正常了：node

request.headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
request.headers['cache-control'] = 'no-cache'

看来仍是得注意请求头的细节。web