Java爬虫框架WebMagic的使用总结

最近,项目作一个公司新闻网站,分为PC&移动端(h5),数据来源是从HSZX与huanqiu2个网站爬取,主要使用 Java编写的WebMagic做为爬虫框架,数据分为批量抓取、增量抓取,批量抓当前全部历史数据,增量须要每10分钟定时抓取一次,因为从2个网站抓取,而且频道不少,数据量大,更新频繁;开发过程当中遇到不少的坑,今天腾出时间,感受有必要作以总结。 工具说明: html          
相关文章
相关标签/搜索