搜索引擎----网络爬虫

时间 2020-12-25

原文原文链接

网络爬虫以叫网络蜘蛛（Spider或Crawler），网络机器人，是一个程序，会自动抓取互联网上的网页。这种技术一般可能会检查你的站点上所有的链接。当然，更为高级的技术是把网页中的相关数据分类保存下来，成为搜索引擎的数据源。基本架构图：传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂

>>阅读原文<<