测试之道--网络爬虫系列2(爬虫技术及原理)

通用网络爬虫原理 1)获取初始的URL:可以用户人为指定一个或者多个URL 2)根据初始的URL爬取页面并获得新的URL:首先爬取初始URL网页,将网页存储到原始数据库的同时获取网页中的新的URL地址,将新的URL存放到待爬取URL列表中,并将已经爬取的URL放到已爬取URL列表中,目的是用于去重及判断爬取的进程。 3)重复步骤2直至满足爬虫系统设置的停止条件时,停止爬取。 聚焦网络爬虫原理 1)
相关文章
相关标签/搜索