Elastic-Job是ddframe中dd-job的做业模块中分离出来的分布式弹性做业框架。去掉了和dd-job中的监控和ddframe接入规范部分。该项目基于成熟的开源产品Quartz和Zookeeper及其客户端Curator进行二次开发。java
项目开源地址:https://github.com/dangdangdotcom/elastic-jobgit
ddframe其余模块也有可独立开源的部分,以前当当曾开源过dd-soa的基石模块DubboX。github
elastic-job和ddframe关系见下图web
定时任务: 基于成熟的定时任务做业框架Quartz cron表达式执行定时任务。spring
做业注册中心: 基于Zookeeper和其客户端Curator实现的全局做业注册控制中心。用于注册,控制和协调分布式做业执行。api
做业分片: 将一个任务分片成为多个小任务项在多服务器上同时执行。tomcat
弹性扩容缩容: 运行中的做业服务器崩溃,或新增长n台做业服务器,做业框架将在下次做业执行前从新分片,不影响当前做业执行。安全
支持多种做业执行模式: 支持OneOff,Perpetual和SequencePerpetual三种做业模式。服务器
失效转移: 运行中的做业服务器崩溃不会致使从新分片,只会在下次做业启动时分片。启用失效转移功能能够在本次做业执行过程当中,监测其余做业服务器空闲,抓取未完成的孤儿分片项执行。多线程
运行时状态收集: 监控做业运行时状态,统计最近一段时间处理的数据成功和失败数量,记录做业上次运行开始时间,结束时间和下次运行时间。
做业中止,恢复和禁用:用于操做做业启停,并能够禁止某做业运行(上线时经常使用)。
被错过执行的做业重触发:自动记录错过执行的做业,并在上次做业完成后自动触发。可参考Quartz的misfire。
多线程快速处理数据:使用多线程处理抓取到的数据,提高吞吐量。
幂等性:重复做业任务项断定,不重复执行已运行的做业任务项。因为开启幂等性须要监听做业运行状态,对瞬时反复运行的做业对性能有较大影响。
容错处理:做业服务器与Zookeeper服务器通讯失败则当即中止做业运行,防止做业注册中心将失效的分片分项配给其余做业服务器,而当前做业服务器仍在执行任务,致使重复执行。
Spring支持:支持spring容器,自定义命名空间,支持占位符。
运维平台:提供运维界面,能够管理做业和注册中心。
elastic-job-core
elastic-job核心模块,只经过Quartz和Curator就可执行分布式做业。
elastic-job-spring
elastic-job对spring支持的模块,包括命名空间,依赖注入,占位符等。
elastic-job-console
elastic-job web控制台,可将编译以后的war放入tomcat等servlet容器中使用。
elastic-job-example
使用例子。
elastic-job-test
测试elastic-job使用的公用类,使用方无需关注。
<!-- 引入elastic-job核心模块 --> <dependency> <groupId>com.dangdang</groupId> <artifactId>elastic-job-core</artifactId> <version>1.0.1</version> </dependency> <!-- 使用springframework自定义命名空间时引入 --> <dependency> <groupId>com.dangdang</groupId> <artifactId>elastic-job-spring</artifactId> <version>1.0.1</version> </dependency>
提供3种做业类型,分别是OneOff, Perpetual和SequencePerpetual。须要继承相应的抽象类。
方法参数shardingContext包含做业配置,分片和运行时信息。可经过getShardingTotalCount(),getShardingItems()等方法分别获取分片总数,运行在本做业服务器的分片序列号集合等。
OneOff类型做业
OneOff做业类型比较简单,须要继承AbstractOneOffElasticJob,该类只提供了一个方法用于覆盖,此方法将被定时执行。用于执行普通的定时任务,与Quartz原生接口类似,只是增长了弹性扩缩容和分片等功能。
public class MyElasticJob extends AbstractOneOffElasticJob { @Override protected void process(JobExecutionMultipleShardingContext context) { // do something by sharding items } }
Perpetual类型做业
Perpetual做业类型略为复杂,须要继承AbstractPerpetualElasticJob并能够指定返回值泛型,该类提供两个方法可覆盖,分别用于抓取和处理数据。能够获取数据处理成功失败次数等辅助监控信息。须要注意fetchData方法的返回值只有为null或长度为空时,做业才会中止执行,不然做业会一直运行下去。这点是参照TbSchedule的设计。Perpetual做业类型更适用于流式不间歇的数据处理。
做业执行时会将fetchData的数据传递给processData处理,其中processData获得的数据是经过多线程(线程池大小可配)拆分的。建议processData处理数据后,更新其状态,避免fetchData再次抓取到,从而使得做业永远不会中止。processData的返回值用于表示数据是否处理成功,抛出异常或者返回false将会在统计信息中纳入失败次数,返回true则纳入成功次数。
public class MyElasticJob extends AbstractPerpetualElasticJob<Foo> { @Override protected List<Foo> fetchData(JobExecutionMultipleShardingContext context) { List<Foo> result = // get data from database by sharding items return result; } @Override protected boolean processData(JobExecutionMultipleShardingContext context, Foo data) { // process data return true; } }
SequencePerpetual类型做业
SequencePerpetual做业类型和Perpetual做业类型极为类似,所不一样的是Perpetual做业类型能够将获取到的数据多线程处理,但不会保证多线程处理数据的顺序。如:从2个分片共获取到100条数据,第1个分片40条,第2个分片60条,配置为两个线程处理,则第1个线程处理前50条数据,第2个线程处理后50条数据,无视分片项;SequencePerpetual类型做业则根据当前服务器所分配的分片项数量进行多线程处理,每一个分片项使用同一线程处理,防止了同一分片的数据被多线程处理,从而致使的顺序问题。如:从2个分片共获取到100条数据,第1个分片40条,第2个分片60条,则系统自动分配两个线程处理,第1个线程处理第1个分片的40条数据,第2个线程处理第2个分片的60条数据。因为Perpetual做业可使用多余分片项的任意线程数处理,因此性能调优的可能会优于SequencePerpetual做业。
public class MyElasticJob extends AbstractSequencePerpetualElasticJob<Foo> { @Override protected List<Foo> fetchData(JobExecutionSingleShardingContext context) { List<Foo> result = // get data from database by sharding items return result; } @Override protected boolean processData(JobExecutionSingleShardingContext context, Foo data) { // process data return true; } }
与Spring容器配合使用做业,能够将做业Bean配置为Spring Bean, 可在做业中经过依赖注入使用Spring容器管理的数据源等对象。可用placeholder占位符从属性文件中取值。
Spring命名空间配置
<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:reg="http://www.dangdang.com/schema/ddframe/reg" xmlns:job="http://www.dangdang.com/schema/ddframe/job" xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd http://www.dangdang.com/schema/ddframe/reg http://www.dangdang.com/schema/ddframe/reg/reg.xsd http://www.dangdang.com/schema/ddframe/job http://www.dangdang.com/schema/ddframe/job/job.xsd "> <!--配置做业注册中心 --> <reg:zookeeper id="regCenter" serverLists=" yourhost:2181" namespace="dd-job" baseSleepTimeMilliseconds="1000" maxSleepTimeMilliseconds="3000" maxRetries="3" /> <!-- 配置做业A--> <job:bean id="oneOffElasticJob" class="xxx.MyOneOffElasticJob" regCenter="regCenter" cron="0/10 * * * * ?" shardingTotalCount="3" shardingItemParameters="0=A,1=B,2=C" /> <!-- 配置做业B--> <job:bean id="perpetualElasticJob" class="xxx.MyPerpetualElasticJob" regCenter="regCenter" cron="0/10 * * * * ?" shardingTotalCount="3" shardingItemParameters="0=A,1=B,2=C" processCountIntervalSeconds="10" concurrentDataProcessThreadCount="10" /> </beans>
秒(0~59) 分钟(0~59) 小时(0~23) 天(月)(0~31,可是你须要考虑你月的天数) 月(0~11) 天(星期)(1~7 1=SUN 或 SUN,MON,TUE,WED,THU,FRI,SAT) 7.年份(1970-2099) 其中每一个元素能够是一个值(如6),一个连续区间(9-12),一个间隔时间(8-18/4)(/表示每隔4小时),一个列表(1,3,5),通配符。因为"月份中的日期"和"星期中的日期"这两个元素互斥的,必需要对其中一个设置?. 0 0 10,14,16 * * ? 天天上午10点,下午2点,4点 0 0/30 9-17 * * ? 朝九晚五工做时间内每半小时 0 0 12 ? * WED 表示每一个星期三中午12点 "0 0 12 * * ?" 天天中午12点触发 "0 15 10 ? * *" 天天上午10:15触发 "0 15 10 * * ?" 天天上午10:15触发 "0 15 10 * * ? *" 天天上午10:15触发 "0 15 10 * * ? 2005" 2005年的天天上午10:15触发 "0 * 14 * * ?" 在天天下午2点到下午2:59期间的每1分钟触发 "0 0/5 14 * * ?" 在天天下午2点到下午2:55期间的每5分钟触发 "0 0/5 14,18 * * ?" 在天天下午2点到2:55期间和下午6点到6:55期间的每5分钟触发 "0 0-5 14 * * ?" 在天天下午2点到下午2:05期间的每1分钟触发 "0 10,44 14 ? 3 WED" 每一年三月的星期三的下午2:10和2:44触发 "0 15 10 ? * MON-FRI" 周一至周五的上午10:15触发 "0 15 10 15 * ?" 每个月15日上午10:15触发 "0 15 10 L * ?" 每个月最后一日的上午10:15触发 "0 15 10 ? * 6L" 每个月的最后一个星期五上午10:15触发 "0 15 10 ? * 6L 2002-2005" 2002年至2005年的每个月的最后一个星期五上午10:15触发 "0 15 10 ? * 6#3" 每个月的第三个星期五上午10:15触发 有些子表达式能包含一些范围或列表 例如:子表达式(天(星期))能够为 “MON-FRI”,“MON,WED,FRI”,“MON-WED,SAT” “*”字符表明全部可能的值 所以,“*”在子表达式(月)里表示每月的含义,“*”在子表达式(天(星期))表示星期的每一天 “/”字符用来指定数值的增量 例如:在子表达式(分钟)里的“0/15”表示从第0分钟开始,每15分钟 在子表达式(分钟)里的“3/20”表示从第3分钟开始,每20分钟(它和“3,23,43”)的含义同样 “?”字符仅被用于天(月)和天(星期)两个子表达式,表示不指定值 当2个子表达式其中之一被指定了值之后,为了不冲突,须要将另外一个子表达式的值设为“?” “L” 字符仅被用于天(月)和天(星期)两个子表达式,它是单词“last”的缩写 可是它在两个子表达式里的含义是不一样的。 在天(月)子表达式中,“L”表示一个月的最后一天 在天(星期)自表达式中,“L”表示一个星期的最后一天,也就是SAT 若是在“L”前有具体的内容,它就具备其余的含义了 例如:“6L”表示这个月的倒数第6天,“FRIL”表示这个月的最一个星期五 注意:在使用“L”参数时,不要指定列表或范围,由于这会致使问题
字段 容许值 容许的特殊字符
秒 |
0-59 |
, - * / |
||
分 |
0-59 |
, - * / |
||
小时 |
0-23 |
, - * / |
||
日期 |
1-31 |
, - * ? / L W C |
||
月份 |
1-12 或者 JAN-DEC |
, - * / |
||
星期 |
1-7 或者 SUN-SAT |
, - * ? / L C # |
||
年(可选) |
留空, 1970-2099 |
, - * / |
<job:bean />命名空间属性详细说明
<reg:zookeeper />命名空间属性详细说明
基于Spring但不使用命名空间
<!-- 配置做业注册中心 --> <bean id="regCenter" class="com.dangdang.ddframe.reg.zookeeper.ZookeeperRegistryCenter" init-method="init"> <constructor-arg> <bean class="com.dangdang.ddframe.reg.zookeeper.ZookeeperConfiguration"> <property name="serverLists" value="${xxx}" /> <property name="namespace" value="${xxx}" /> <property name="baseSleepTimeMilliseconds" value="${xxx}" /> <property name="maxSleepTimeMilliseconds" value="${xxx}" /> <property name="maxRetries" value="${xxx}" /> </bean> </constructor-arg> </bean> <!-- 配置做业--> <bean id="xxxJob" class="com.dangdang.ddframe.job.spring.schedule.SpringJobController" init-method="init"> <constructor-arg ref="regCenter" /> <constructor-arg> <bean class="com.dangdang.ddframe.job.api.JobConfiguration"> <constructor-arg name="jobName" value="xxxJob" /> <constructor-arg name="jobClass" value="xxxDemoJob" /> <constructor-arg name="shardingTotalCount" value="10" /> <constructor-arg name="cron" value="0/10 * * * * ?" /> <property name="shardingItemParameters" value="${xxx}" /> </bean> </constructor-arg> </bean>
不使用Spring配置
若是不使用Spring框架,能够用以下方式启动做业。
import com.dangdang.ddframe.job.api.JobConfiguration; import com.dangdang.ddframe.job.schedule.JobController; import com.dangdang.ddframe.reg.base.CoordinatorRegistryCenter; import com.dangdang.ddframe.reg.zookeeper.ZookeeperConfiguration; import com.dangdang.ddframe.reg.zookeeper.ZookeeperRegistryCenter; import com.dangdang.example.elasticjob.core.job.OneOffElasticDemoJob; import com.dangdang.example.elasticjob.core.job.PerpetualElasticDemoJob; import com.dangdang.example.elasticjob.core.job.SequencePerpetualElasticDemoJob; public class JobDemo { // 定义Zookeeper注册中心配置对象 private ZookeeperConfiguration zkConfig = new ZookeeperConfiguration("localhost:2181", "elastic-job-example", 1000, 3000, 3); // 定义Zookeeper注册中心 private CoordinatorRegistryCenter regCenter = new ZookeeperRegistryCenter(zkConfig); // 定义做业1配置对象 private JobConfiguration jobConfig1 = new JobConfiguration("oneOffElasticDemoJob", OneOffElasticDemoJob.class, 10, "0/5 * * * * ?"); // 定义做业2配置对象 private JobConfiguration jobConfig2 = new JobConfiguration("perpetualElasticDemoJob", PerpetualElasticDemoJob.class, 10, "0/5 * * * * ?"); // 定义做业3配置对象 private JobConfiguration jobConfig3 = new JobConfiguration("sequencePerpetualElasticDemoJob", SequencePerpetualElasticDemoJob.class, 10, "0/5 * * * * ?"); public static void main(final String[] args) { new JobDemo().init(); } private void init() { // 链接注册中心 regCenter.init(); // 启动做业1 new JobController(regCenter, jobConfig1).init(); // 启动做业2 new JobController(regCenter, jobConfig2).init(); // 启动做业3 new JobController(regCenter, jobConfig3).init(); } }
做业一旦启动成功后不能修改做业名称,若是修更名称则视为新的做业。
同一台做业服务器只能运行一个相同的做业实例,由于做业运行时是按照IP注册和管理的。
做业根据/etc/hosts文件获取IP地址,若是获取的IP地址是127.0.0.1而非真实IP地址,应正确配置此文件。
一旦有服务器波动,或者修改分片项,将会触发从新分片;触发从新分片将会致使运行中的Perpetual以及SequencePerpetual做业再执行完本次做业后再也不继续执行,等待分片结束后再恢复正常。
开启monitorExecution才能实现分布式做业幂等性(即不会在多个做业服务器运行同一个分片)的功能,但monitorExecution对短期内执行的做业(如每5秒一触发)性能影响较大,建议关闭并自行实现幂等性。
elastic-job没有自动删除做业服务器的功能,由于没法区分是服务器崩溃仍是正常下线。因此若是要下线服务器,须要手工删除zookeeper中相关的服务器节点。因为直接删除服务器节点风险较大,暂时不考虑在运维平台增长此功能
弹性分布式实现
第一台服务器上线触发主服务器选举。主服务器一旦下线,则从新触发选举,选举过程当中阻塞,只有主服务器选举完成,才会执行其余任务。
某做业服务器上线时会自动将服务器信息注册到注册中心,下线时会自动更新服务器状态。
主节点选举,服务器上下线,分片总数变动均更新从新分片标记。
定时任务触发时,如需从新分片,则经过主服务器分片,分片过程当中阻塞,分片结束后才可执行任务。如分片过程当中主服务器下线,则先选举主服务器,再分片。
经过4可知,为了维持做业运行时的稳定性,运行过程当中只会标记分片状态,不会从新分片。分片仅可能发生在下次任务触发前。
每次分片都会按服务器IP排序,保证分片结果不会产生较大波动。
实现失效转移功能,在某台服务器执行完毕后主动抓取未分配的分片,而且在某台服务器下线后主动寻找可用的服务器执行任务。
流程图
做业启动
做业执行
elastic-job运维平台以war包形式提供,可自行部署到tomcat或jetty等支持servlet的web容器中。elastic-job-console.war能够经过编译源码或从maven中央仓库获取。
登陆
默认用户名和密码是root/root,能够经过修改conf\auth.properties文件修改默认登陆用户名和密码。
主要功能
登陆安全控制
注册中心管理
做业维度状态查看
服务器维度状态查看
快捷修改做业设置
控制做业暂停和恢复运行
设计理念
运维平台和elastic-job并没有直接关系,是经过读取做业注册中心数据展示做业状态,或更新注册中心数据修改全局配置。
控制台只能控制做业自己是否运行,但不能控制做业进程的启停,由于控制台和做业自己服务器是彻底分布式的,控制台并不能控制做业服务器。
不支持项
添加做业。由于做业都是在首次运行时自动添加,使用运维平台添加做业并没有必要。
中止做业。即便删除了Zookeeper信息也不能真正中止做业的运行,还会致使运行中的做业出问题。
删除做业服务器。因为直接删除服务器节点风险较大,暂时不考虑在运维平台增长此功能。
主要界面
总览页
注册中心管理页
做业详细信息页
服务区详细信息页