Java爬虫框架(一)--架构设计

一、        架构图 那里搜网络爬虫框架主要针对电子商务网站进行数据爬取,分析,存储,索引。   爬虫:爬虫负责爬取,解析,处理电子商务网站的网页的内容 数据库:存储商品信息 索引:商品的全文搜索索引 Task队列:需要爬取的网页列表 Visited表:已经爬取过的网页列表 爬虫监控平台:web平台可以启动,停止爬虫,管理爬虫,task队列,visited表。 二、        爬虫 1.
相关文章
相关标签/搜索