基于Hadoop 的分布式网络爬虫技术学习笔记

http://blog.csdn.net/zolalad/article/details/16344661 基于Hadoop 的分布式网络爬虫技术学习笔记   一、网络爬虫原理 Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。
相关文章
相关标签/搜索