通用爬虫和聚焦爬虫

  通用爬虫是搜索引擎抓取系统 (baidu,goole,yahoo等)的重要组成部分 。 主要目的是将互联网的网页下载到本地 ,形成一个互联网内容的镜像备份。 搜索引擎网络爬虫的基本工作流程如下: 第一步 :抓取网页  1,首先选取一部分的种子url,并将这些url放进抓取url队列 。 2,取出待抓取url,解析dns得到主机的ip,并将Url对应的网页下载下来 存储进已下载网页库中 ,并且将
相关文章
相关标签/搜索