设计和实现高水平分布式网络爬虫

本人翻译,原创,转载务必注明:哈尔滨工程大学李海波正则表达式      设计和实现高水平分布式网络爬虫算法 摘要:纵观网络搜索引擎和其余特殊的搜索工具同样,依赖网络蜘蛛区得到大规模的网页进行索引和分析。这样的网络爬虫会与数以百万计的主机在必定时期或者一周内进行交互。所以随之产生的健壮性、灵活性和可管理性等问题。另外,I/O性能、网络资源和操做系统的限制也会在设计高性能爬虫的时候进行合理的考虑。数据
相关文章
相关标签/搜索