LinkExtractor中的一个坑！（scrapy crawlspider）

时间 2021-01-11

原文原文链接

** LinkExtractor中的链接提取会默认过滤部分连接 ** linkextractor连接提取器会默认将一些例如css pdf doc 等后缀的链接过滤掉！！折腾了好久才发现，目前没有找到解决办法，暂时去源码中将其定义的后缀名列表将我需要爬取的删掉了解决，先留个坑以后再来填