Kettle根据时间戳同步数据实现

1 Kettle整体步骤

更多数据实时同步方案,请参考笔者的另外一篇博文:大数据时代,数据实时同步解决方案的思考—最全的数据同步总结html

因为Kettle自身的特殊性以及在多个步骤中kettle自身处理数据库事务的特殊性,尝试了不少种方案,最终肯定暂使用以下方案。数据库

一、使用此方案能够解决kettle自己数据库事务的缺点post

二、使用此方案能够解决支队多个表中同时往一张总表中同步数据时,取时间戳不许的问题。大数据

三、配置时,每一个支队的数据汇聚时,都单独配置一个转换做业任务。3d

四、Kettle支持字段映射,转换,以及做业定时运行等。htm

2 Kettle配置实现

A)清空临时表blog

 

B)读取交换时间事务

 

C)读取须要交换的数据get

 

D)更新到临时表同步

 

E)插入更新到目标表

 

F)更新时间

 

3 Kettle配置风险

一、单次同步数据量大时,因为须要同时更新两次表,效率可能会比较低

二、若是采用单次限制数据记录量,因为Kettle自己不支持数据分页,当数据表若是存在大量数据记录的时间戳都相同时,可能会致使部分数据没法同步过来。

【原文归做者全部,欢迎转载,可是保留版权】

相关文章
相关标签/搜索