elasticJob分片跑批

时间 2019-12-05

标签 elasticjob 分片繁體版

原文原文链接

业务迅速发展带来了跑批数据量的急剧增长。单机处理跑批数据已不能知足须要，另考虑到企业处理数据的扩展能力，多机跑批势在必行。多机跑批是指将跑批任务分发到多台服务器上执行，多机跑批的前提是”数据分片”。elasticJob经过JobShardingStrategy支持分片跑批。算法

跑批配置须要作以下修改：
sql

shardingTotalCount:做业分片总数。数据库

jobShardingStrategyClass:做业分片策略实现类全路径，elasticJob默认提供了以下三种分片策略，AverageAllocationJobShardingStrategy : 基于平均分配算法的分片策略。
OdevitySortByNameJobShardingStrategy:根据做业名的哈希值奇偶数决定IP升降序算法的分片策略。
RotateServerByNameJobShardingStrategy:根据做业名的哈希值对服务器列表进行轮转的分片策略。
默认使用AverageAllocationJobShardingStrategy。服务器

shardingItemParameters:分片序列号和个性化参数对照表。
分片序列号和参数用等号分隔, 多个键值对用逗号分隔。
分片序列号从0开始, 不可大于或等于做业分片总数。
分片的维度一般有状态(state)、类型(accountType)、id分区等，须要按照业务合适选取。函数

以上例，跑批服务器起了两台，192.168.30.38(测试跑批服务器)和10.15.83.211(本地服务)。
做业分片总数为4，跑批服务器起了两台，根据AverageAllocationJobShardingStrategy ，每台服务器分到的分片是: 1=[0,1], 2=[2,3]。这能够在Elastic Job Console上做业列表中能够看出。
测试

本地服务器上也打印了shardingContext对象，以相互印证。fetch

shardingContext:{"fetchDataCount":1,"jobName":"autoBidTransferLoanJob-1","jobParameter":"","monitorExecution":false,"offsets":{},"shardingItemParameters":{0:"NFM",1:"NFMF"},"shardingItems":[0,1],"shardingTotalCount":4}

数据分片所须要作的，就是将shardingItemParameters做为参数传入查询跑批待处理数据列表的方法里，sql查询时增长一个动态in条件，例如：spa

And accountType in (‘NFM’, ‘NFMF’)

分片方案

一、数据库层面，对业务主键进行取模。code

where mod(id, 4) in (1, 2)

这种方式的问题是，在主键或者索引字段外套了一个函数，索引失效、全表扫描。改进方案是查询条件中再增长一个索引字段。对象

where mod(id, 4) in (1, 2) and create_date > sysdate - 1

二、数据库层面，增长字段，在生成数据时，就为该行数据生成一个mod值。
作分片的初衷就是跑批数据量愈来愈大、单台机器处理能力有限，经过扩展机器数来提高系统处理的能力。该mod值建议不要过小，至少要比分片项大。例如，生成的1000条数据的mod值只有0和1，而机器数加到了10，那最终只有两台机器在运行，形成资源浪费。固然，咱们能够及时调整生成数据时的取模值，新生成的数据仍是会分散到不一样的机器上。

三、业务层面，选取状态(state)、类型(accountType)等字段做为分区维度。