为了便于开发者对使用SeimiCrawler框架开发的爬虫工程的打包部署,现已推出maven-seimicrawler-plugin
,一个maven工程的自动化打包插件。下面简要介绍下他的使用。git
pom添加添加plugingithub
<plugin> <groupId>cn.wanghaomiao</groupId> <artifactId>maven-seimicrawler-plugin</artifactId> <version>1.0.0</version> <executions> <execution> <phase>package</phase> <goals> <goal>build</goal> </goals> </execution> </executions> <!--<configuration>--> <!-- 默认target目录 --> <!--<outputDirectory>/some/path</outputDirectory>--> <!--</configuration>--> </plugin>
执行mvn clean package
便可,包目录结构以下:windows
. ├── bin # 相应的脚本中也有具体启动参数说明介绍,在此再也不敖述 │ ├── run.bat # windows下启动脚本 │ └── run.sh # Linux下启动脚本 └── seimi ├── classes # Crawler工程业务类及相关配置文件目录 └── lib # 工程依赖包目录
SeimiCrawler是一个敏捷的,支持分布式的Java爬虫开发框架,但愿能在最大程度上下降新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提高开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其他的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大,同时融合了Java语言自己特色与Spring的特性,并但愿在国内更方便且广泛的使用更有效率的XPath解析HTML,因此SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工做均使用XPath来完成(固然,数据处理亦能够自行选择其余解析器)。框架
直达SeimiCrawler项目maven
你们有什么问题或建议如今均可以选择经过下面的邮件列表讨论,首次发言前需先订阅并等待审核经过(主要用来屏蔽广告宣传等)分布式
seimicrawler+subscribe@googlegroups.com
seimicrawler@googlegroups.com
seimicrawler+unsubscribe@googlegroups.com