crawler_爬虫开发的曲线图

我的总结爬虫的学习曲线,可分为三个阶段, html

1、 java

    主要在填充基础知识,要熟悉http协议,学习正则表达式,首先基于jdk的基础包的网络功能,.net包下的  httpurlconnction 正则表达式

从细节上简单访问网络数据,进一步能够减去一些繁琐的封装功能(请求参数),使用httpClient (4.2.1)版本,处理的登陆网络

页面解析能够借助regex ,jsoup ,htmlparser ,建议使用正则(要求较高),数据的锁向性准确,性能高。架构

2、负载均衡

    融入架构的思想,考虑爬取性能,爬取道德,站点处理能力,设计实现分布式爬虫,异步下载,负载均衡。异步

我的正在处在第二阶段分布式

三 、性能

    通过阶段二,通常商用爬虫都能应对,若打算进一步提升,java的垃圾回收,内存释放,注定性能比不上c,学习

可根据我的兴趣,用c重写。

不尽之处,欢迎沟通与交流 ,共同进步。

爬虫技术交流_crawler  QQ群 :167047843

相关文章
相关标签/搜索