2020/04/12 02-HTML和URL提取、豆瓣读书爬虫编写

时间 2021-07-13

原文原文链接

scrapy提供了大量的脚手架，其实要写的部分都可以通过脚手架来完成先是创建一个项目，明确爬取目标这是项目里需要配置的东西首先要配置user-agent和robotstxt协议改成false，不改成false，就会把别人不允许的都跳过不爬取，cookie一般不用，除非你用cookie做一些事情，否则不要保留cookie了，相当于对url来讲每一次发起的都是全新的请求。在爬取的时候注意并发

>>阅读原文<<