crawler_爬虫开发的曲线图

时间 2019-12-11

标签 crawler 爬虫开发曲线图栏目网络爬虫繁體版

原文原文链接

我的总结爬虫的学习曲线，可分为三个阶段， html

1、 java

主要在填充基础知识，要熟悉http协议，学习正则表达式，首先基于jdk的基础包的网络功能，.net包下的 httpurlconnction 正则表达式

从细节上简单访问网络数据，进一步能够减去一些繁琐的封装功能（请求参数），使用httpClient (4.2.1)版本，处理的登陆网络

页面解析能够借助regex ,jsoup ,htmlparser ,建议使用正则（要求较高），数据的锁向性准确，性能高。架构

2、负载均衡

融入架构的思想，考虑爬取性能，爬取道德，站点处理能力，设计实现分布式爬虫，异步下载，负载均衡。异步

我的正在处在第二阶段分布式

三、性能

通过阶段二，通常商用爬虫都能应对，若打算进一步提升，java的垃圾回收，内存释放，注定性能比不上c,学习

可根据我的兴趣，用c重写。

不尽之处，欢迎沟通与交流，共同进步。

爬虫技术交流_crawler QQ群：167047843