代码尚未优化java
框架结构很简单node
部分功能须要大家给我需求,我后期添加测试git
命令:java -jar Crawler.jar -[option]
-v 爬虫的版本信息
-h 爬虫的帮助文档
-ct [url] 爬虫爬取一个网站测试 URL:测试的URL地址
-cw [url] [k,v] 测试信息抽取 | URL:测试的URL | [k,v] title,div[class=title] 若是有多个参数,使用#隔开
-ci [urllist] [k,v] <InputResult> 把抽取的信息规则保存xml中,能够使用SQL工具的导入向导导入到数据库或者转成其余格式| <InputResult> 保存结 果目录
-cl [url] [k,v] <InputUrllist> 把某URL的列表URL保存到文件中,能够用ci进行深刻爬取
一、-ci URL文件 爬虫规则 输出路径数据库
二、执行java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml框架
而后咱们能够使用SQL导入向导,用xml导入的方式,而后又能够转换为XML、TXT、EXCEL、WORD等多种格式。Navicat工具等分布式
三、-cl命令就是用来生成urllist.txt 而后执行ci命令便可工具
个人邮箱344892053@qq.com BUG直接ISS或者邮件,你把你的需求告诉我,我来完善,我本身手头有一堆还没完善。测试
已经完成的:优化
一、URL格式化,部分网站的URL以"/" "./" "../" "//" 这些已经解决了网站
二、HTTP代理接口,有了 尚未加
三、自定义UA和Cookie登陆 也有了,没有加
四、JDBC以前有,感受没有xml导入的快,是个累赘 删除了
五、预留了个性化工具,批量提取EMail、QQ、手机号等
六、给SQLMAP作了接口,可在后期实现自动化注入测试和XSS测试
七、能够给Nutch结合上
八、还有问题给我提,我记记,而后慢慢完善。代码是开源 JavaGUI你懂
PS:使用者必需要有Java运行时环境
如今的功能可与Shell DOS命令结合:定时爬虫、分布式爬虫,能够自由组合
OSchina:http://git.oschina.net/puguoan/Crawler
命令已经改变了许多,请看Git中的说明