网络爬虫

时间 2019-11-16

原文原文链接

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更常常的称为网页追逐者），是一种按照必定的规则，自动地抓取万维网信息的程序或者脚本。另一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。web

聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的连接，获取所须要的信息。与通用爬虫(general purpose web crawler)不一样，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。算法

聚焦爬虫工做原理以及关键技术概述网络

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，得到初始网页上的URL，在抓取网页的过程当中，不断从当前页面上抽取新的URL放入队列,直到知足系统的必定中止条件。聚焦爬虫的工做流程较为复杂，须要根据必定的网页分析算法过滤与主题无关的连接，保留有用的连接并将其放入等待抓取的URL队列。而后，它将根据必定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时中止。另外，全部被爬虫抓取的网页将会被系统存贮，进行必定的分析、过滤，并创建索引，以便以后的查询和检索；对于聚焦爬虫来讲，这一过程所获得的分析结果还可能对之后的抓取过程给出反馈和指导。搜索引擎

网络爬虫按照系统结构和实现技术，大体能够分为如下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统一般是几种爬虫技术相结合实现的索引

具体见：https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin队列