基于python的crawler

时间 2020-12-20

原文原文链接

考虑到垂直爬虫及站内搜索的重要性，重新思考一下项目爬虫的技术架构及实现方案。以前的垂直爬虫曾经使用过heritrix、htmlparser、nutch等，各有优缺点。尤其是要做垂直网站的定向爬取时候，并没有太好的方案，只能够做指定页面的定向解析，因此以前主要还是使用htmlparser的方案。考察垂直爬虫的几个原则：性能较高：较好支持多线程并发处理；支持异步、非阻塞socket；支持分

>>阅读原文<<