爬虫的原理及过程

通用网络爬虫 一、实现过程如下图所示 二、实现原理如下 获取初始的URL。初始的URL地址可以人为的指定,也可以由用户指定的某几个或者某个初始爬取网页决定。 根据初始的URL爬取页面并获得新的URL。爬取当前初始的URL地址中的网页信息后,解析网页信息内容将网页信息内容存储到原始数据库中,并且在当前获得的网页信息里面发现新的URL地址,存放到一个URL队列里面。 从URL队列中读取新的URL,从而
相关文章
相关标签/搜索