开发一款开源爬虫框架系列(一):分析nutch,scrapy的爬虫设计

nutch的架构分析    injector首次会从url.txt中取出url而后将url分配给hadoop中的不一样job进行url标准化和校验,并构造<url, CrawlDatum>对象。generator会利用hadoop中不一样的job进行url过滤、打分和计算hash值,而后将信息存入ParseSegment,fetcher会利用多线程下载网页将内容存入content,将url返回给c
相关文章
相关标签/搜索