开发一款开源爬虫框架系列（一）：分析nutch，scrapy的爬虫设计

时间 2019-12-14

标签开发一款开源爬虫框架系列分析 nutch scrapy 设计栏目网络爬虫繁體版

原文原文链接

nutch的架构分析 injector首次会从url.txt中取出url而后将url分配给hadoop中的不一样job进行url标准化和校验，并构造<url, CrawlDatum>对象。generator会利用hadoop中不一样的job进行url过滤、打分和计算hash值，而后将信息存入ParseSegment,fetcher会利用多线程下载网页将内容存入content，将url返回给c

>>阅读原文<<