通用爬虫和聚焦爬虫

时间 2021-01-10

原文原文链接

通用爬虫是搜索引擎抓取系统（baidu,goole,yahoo等）的重要组成部分。主要目的是将互联网的网页下载到本地，形成一个互联网内容的镜像备份。搜索引擎网络爬虫的基本工作流程如下：第一步：抓取网页 1，首先选取一部分的种子url，并将这些url放进抓取url队列。 2，取出待抓取url，解析dns得到主机的ip，并将Url对应的网页下载下来存储进已下载网页库中，并且将