最近在学习Python的爬虫。之前坚持用nodejs作爬虫。前两天闲得无聊,在慕课上看了下scrapy的课程。而后发现这个框架的设计真模块化。因此就开始动手用scrapy爬取一些东西。
而后个人目标网站是个drupal作的。分页抓取的时候,首页是正常的,爬取第二页的时候,大几率是抛错提示:404,要么就是给我返回了一些脏数据。html
这个网站还真是老谋深算啊。而后我仔细分析了下网站的请求头。而后加上了以下两条,请求就正常了:node
request.headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' request.headers['cache-control'] = 'no-cache'
看来仍是得注意请求头的细节。web