Seimi基础系列1-SeimiCrawler打包部署工具使用

时间 2019-11-15

标签 seimi 基础系列 seimicrawler 打包部署工具使用繁體版

原文原文链接

简介

在开发调试状况下，能够直接采用main函数来启动SeimiCrawler，可是为了便于工程化部署与分发，SeimiCrawler提供了专门的打包插件maven-seimicrawler-plugin用来对SeimiCrawler工程进行打包，打好的包能够直接在服务器上部署运行了。git

如何作

首先须要在pom文件中添加添加plugingithub

<plugin>
    <groupId>cn.wanghaomiao</groupId>
    <artifactId>maven-seimicrawler-plugin</artifactId>
    <version>1.1.0</version>
    <executions>
        <execution>
            <phase>package</phase>
            <goals>
                <goal>build</goal>
            </goals>
        </execution>
    </executions>
    <!--<configuration>-->
        <!-- 默认target目录 -->
        <!--<outputDirectory>/some/path</outputDirectory>-->
    <!--</configuration>-->
</plugin>

接下来，在须要打包的时候，执行mvn clean package便可，打好包目录结构以下：shell

.
├── bin             #下文将有具体启动参数说明介绍
│   ├── run.bat    #windows下启动脚本
│   └── run.sh     #Linux下启动脚本
└── seimi
    ├── classes     #Crawler工程业务类及相关配置文件目录
    └── lib         #工程依赖包目录

启动脚本使用

以shell脚本为例：windows

./bin/run.sh basic 加载全部扫描到的爬虫规则类，并触发名为basic的爬虫规则开始抓取。服务器
./bin/run.sh 8000 basic 加载全部扫描到的爬虫规则类，并触发名为basic的爬虫规则开始抓取,同时在8000端口启动一个http服务接受经过制定http接口（参考SeimiCrawler文档）添加抓取请求，查询抓取状态等。maven
./bin/run.sh 加载全部扫描到的爬虫规则类，并全都都处于监放任务状态。就是startAllWorkers()。函数
./bin/run.sh 8000 加载全部扫描到的爬虫规则类，并全都都处于监放任务状态。就是startAllWorkers()。于此同时在8000端口启动一个http服务接受经过制定http接口（参考SeimiCrawler文档）添加抓取请求，查询抓取状态等。ui

体验包下载

SeimiCrawler-demo-1.0.zip插件