初识Java爬虫

难点分析 网站采取反爬策略 解决方式:模拟浏览器 网站模板定期变动 解决方案: 不同配置文件配置不同网站的模板规则                    数据库存储不同网站的模板规则 网站URL抓取失败 解决方案HttpClient 默认处理方式 Storm 实时解析失败日志,将失败URL重新加入抓取仓库,一般超过三次就放弃 网站频繁抓取IP被封 解决方案:购买代理IP库,随机获取IP抓取数据。
相关文章
相关标签/搜索