爬虫技能

1、技能列表

一、掌握java、尤为编程网络部分;李刚的java基础至少看了三遍以上;css

二、熟悉html、js、 ajax、firedebug
三、网页去重、找到网站特色
四、分布式
五、多线程
六、一种关系型数据库mysql/oraclelserver/mybatis
七、正则表达式、css selector、 xpath
八、DNS cache
九、TCP/IP/Http协议tp2.0十、web登陆协议html

十、 SSO、OAuth原理java

十一、反爬策略
十二、熟悉httpClient、okhttp3...
1三、 熟悉一些提取工具、jsoup、selenim WebDriver...
1四、搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
1五、熟悉XML、JSON、SOAP协议;
1六、mongodb、 redis、 hbase、 hadoop
1七、文本分析、机器学习、数据挖掘、天然语言处理[NLP]
1八、完成网页、微博、微信、贴吧、论坛等数据信息的精准抽取
1九、RPC协议
20、netty、NIO
2一、HTMLUnit、PhantomJS、SlimerJS 、CasperJS
2二、代理部署方案:http/socks
2三、nginx、 squid、jetty
2四、破解ios
2五、验证码、ocr、tess4jmysql

 

2、爬虫工具

一、Phantomjsios

二、berserkJS(基于Phantomjs的改进版本)nginx

三、SlimerJSweb

四、CasperJSajax

五、selenium正则表达式

3、Java相关

经常使用的IDE:IntelliJ IDEA,Eclipse,Netbeansredis

Web开发相关:Tomcat、Resin、Jetty、WebLogic等,经常使用的组件Struts,Spring

HibernateNetty: 异步事件驱动网络应用编程框架,用于高并发网络编程比较好(NIO框架)

MINA:简单地开发高性能和高可靠性的网络应用程序(也是个NIO框架),很多手游服务端是用它开发的

jOOQ:java Orm框架Activiti:工做流引擎,相似的还有jBPM、Snaker

Perfuse:是一个用户界面包用来把有结构与无结构数据以具备交互性的可视化图形展现出来.

Gephi:复杂网络分析软件, 其主要用于各类网络和复杂系统,动态和分层图的交互可视化与探测开源工具

Nutch:知名的爬虫项目,hadoop就是从这个项目中发展出来的

web-harvest:Web数据提取工具

POM工具:Maven+ArtifactoryNetflix

Curator:Netflix公司开源的一个Zookeeper client library,用于简化Zookeeper客户端编程

Akka:一款基于actor模型实现的 并发处理框架

EclEmma:覆盖测试工具

相关文章
相关标签/搜索