项目名称数据库 |
Crawling is going on服务器 |
项目版本异步 |
Beta版本优化 |
负责人网站 |
北京航空航天大学计算机学院 newbe软件团队spa |
联系方式操作系统 |
http://www.cnblogs.com/newbe线程 |
要求发布日期blog |
2014-12-27ci |
a)以前没有考虑爬取过程当中,出现异常会致使爬取线程非正常终止,可是资源被占用。随着异常线程的增长,致使可利用资源所有被占用,整个软件中止工做;在新版本考虑了发生异常释放资源,保证爬取的不间断性。
b)将更新数据库的方法改成异步互斥更新方式,保证了同一时间只有一个线程占用数据库,保证了数据库数据的正确性,同时避免了SQLException。
c)精肯定位目标网页,减小了爬取失败率和太太率,保证了爬虫的效率和正确性。
d)修改命名方式解决了过去由于重命名而致使文件没法删除或者打开的状况。
e)修复爬取过程当中可能爬到具备重复URL的网页的缺陷。
1.2 新增功能
a) 专门爬取问答网页,用户可根据本身兴趣选择爬取不一样的网站或者从当前版本给定的全部网站爬取知足流水线组需求。
b) 专门爬取pdf功能。
c) 专门爬取doc功能。
d) 专门爬取ppt功能。
e) 界面进行了排版和优化
f) 相应修改了分析功能,对数据库内爬取文件的类型和数量进行统计,以饼状图的形式展现。同时以动态的柱状图形式显示爬取过程。
操做系统需求 |
WINDOWS XP,WINDOWS 7,WINDOWS 8 |
运行环境需求 |
需安装最新版本的JRE |
数据库需求 |
在联网的环境下能够直接链接服务器的数据库,本地数据库没有特殊要求 |
将jar软件复制到本地,运行便可。
爬取问答网站时,部分网站数量较少,所有页面爬取完毕后,仍然阻碍其它网站线程占用资源,会致使爬取速度渐渐变慢。
该版本代码及程序发布在服务器219.224.191.25上,可自行下载试用。