2020/04/12 02-HTML和URL提取、豆瓣读书爬虫编写

scrapy提供了大量的脚手架,其实要写的部分都可以通过脚手架来完成 先是创建一个项目,明确爬取目标 这是项目里需要配置的东西 首先要配置user-agent和robotstxt协议改成false,不改成false,就会把别人不允许的都跳过不爬取,cookie一般 不用,除非你用cookie做一些事情,否则不要保留cookie了,相当于对url来讲每一次发起的都是全新的请求。 在爬取的时候注意并发
相关文章
相关标签/搜索