基于python的crawler

考虑到垂直爬虫及站内搜索的重要性,重新思考一下项目爬虫的技术架构及实现方案。以前的垂直爬虫曾经使用过heritrix、htmlparser、nutch等,各有优缺点。尤其是要做垂直网站的定向爬取时候,并没有太好的方案,只能够做指定页面的定向解析,因此以前主要还是使用htmlparser的方案。     考察垂直爬虫的几个原则: 性能较高:较好支持多线程并发处理;支持异步、非阻塞socket;支持分
相关文章
相关标签/搜索