测试之道--网络爬虫系列2（爬虫技术及原理）

时间 2021-01-01

原文原文链接

通用网络爬虫原理 1）获取初始的URL：可以用户人为指定一个或者多个URL 2）根据初始的URL爬取页面并获得新的URL：首先爬取初始URL网页，将网页存储到原始数据库的同时获取网页中的新的URL地址，将新的URL存放到待爬取URL列表中，并将已经爬取的URL放到已爬取URL列表中，目的是用于去重及判断爬取的进程。 3）重复步骤2直至满足爬虫系统设置的停止条件时，停止爬取。聚焦网络爬虫原理 1）

>>阅读原文<<