搜索引擎的爬虫技术研究

时间 2020-12-20

原文原文链接

一、爬虫系统的诞生通用搜索引擎的处理对象是互联网网页，目前互联网网页的数量已达百亿，所以搜索引擎首先面临的问题是：如何能够设计出高效的下载系统，以将如此海量的网页数据传送到本地，在本地形成互联网网页的镜像备份。网络爬虫能够起到这样的作用，完成此项艰巨的任务，它是搜索引擎系统中很关键也很基础的构件。本文主要介绍与网络爬虫相关的技术，尽管爬虫经过几十年的发展，从整体框架上来看已经相对成熟，但随着

>>阅读原文<<