DataX-Web
DataX阿里在开源的时候并未提供任何可视化界面,咱们在使用的过程当中,须要将Json配置文件放到DataX的job路径下,随着业务的增长,配置文件不方便管理和迁移而且每次执行都须要记录命令。
目前DataX只支持单机版,多节点之间的协做不能控制,咱们但愿能有一款有友好的可视化界面,支持定时任务,支持分布式的数据同步利器,这也是该项目的目标。前端
v-2.1.2
新增
- 添加项目管理模块,可对任务分类管理;
- 对RDBMS数据源增长批量任务建立功能,选择数据源,表便可根据模板批量生成DataX同步任务;
- JSON构建增长ClickHouse数据源支持;
- 执行器CPU.内存.负载的监控页面图形化;
- RDBMS数据源增量抽取增长主键自增方式并优化页面参数配置;
- 更换MongoDB数据源链接方式,重构HBase数据源JSON构建模块;
- 脚本类型任务增长中止功能;
- rdbms json构建增长postSql,并支持构建多个preSql,postSql;
- 合并datax-registry模块到datax-rpc中;
- 数据源信息加密算法修改及代码优化;
- 时间增量同步支持更多时间格式;
- 日志页面增长DataX执行结果统计数据;
升级:
- PostgreSql,SQLServer,Oracle 数据源JSON构建增长schema name选择;
- DataX JSON中的字段名称与数据源关键词一致问题优化;
- 任务管理页面按钮展现优化;
- 日志管理页面增长任务描述信息;
- JSON构建前端form表单不能缓存数据问题修复;
- HIVE JSON构建增长头尾选项参数;
备注:
2.1.1版本不建议升级,数据源信息加密方式变动会致使以前已加密的数据源解密失败,任务运行失败。
若是须要升级请重建数据源,任务。python
System Requirements
- Language: Java 8(jdk版本建议1.8.201以上)
Python2.7(支持Python3须要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下)
- Environment: MacOS, Windows,Linux
- Database: Mysql5.7
Features
- 一、经过Web构建DataX Json;
- 二、DataX Json保存在数据库中,方便任务的迁移,管理;
- 三、Web实时查看抽取日志,相似Jenkins的日志控制台输出功能;
- 四、DataX运行记录展现,可页面操做中止DataX做业;
- 五、支持DataX定时任务,支持动态修改任务状态、启动/中止任务,以及终止运行中任务,即时生效;
- 六、调度采用中心式设计,支持集群部署;
- 七、任务分布式执行,任务"执行器"支持集群部署;
- 八、执行器会周期性自动注册任务, 调度中心将会自动发现注册的任务并触发执行;
- 九、路由策略:执行器集群部署时提供丰富的路由策略,包括:第一个、最后一个、轮询、随机、一致性HASH、最不常用、最近最久未使用、故障转移、忙碌转移等;
- 十、阻塞处理策略:调度过于密集执行器来不及处理时的处理策略,策略包括:单机串行(默认)、丢弃后续调度、覆盖以前调度;
- 十一、任务超时控制:支持自定义任务超时时间,任务运行超时将会主动中断任务;
- 十二、任务失败重试:支持自定义任务失败重试次数,当任务失败时将会按照预设的失败重试次数主动进行重试;
- 1三、任务失败告警;默认提供邮件方式失败告警,同时预留扩展接口,可方便的扩展短信、钉钉等告警方式;
- 1四、用户管理:支持在线管理系统用户,存在管理员、普通用户两种角色;
- 1五、任务依赖:支持配置子任务依赖,当父任务执行结束且执行成功后将会主动触发一次子任务的执行, 多个子任务用逗号分隔;
- 1六、运行报表:支持实时查看运行数据,以及调度报表,如调度日期分布图,调度成功分布图等;
- 1七、指定增量字段,配置定时任务自动获取每次的数据区间,任务失败重试,保证数据安全;
- 1八、页面可配置DataX启动JVM参数;
- 1九、数据源配置成功后添加手动测试功能;
- 20、能够对经常使用任务进行配置模板,在构建完JSON以后可选择关联模板建立任务;
- 2一、jdbc添加hive数据源支持,可在构建JSON页面选择数据源生成column信息并简化配置;
- 2二、优先经过环境变量获取DataX文件目录,集群部署时不用指定JSON及日志目录;
- 2三、经过动态参数配置指定hive分区,也能够配合增量实现增量数据动态插入分区;
- 2四、任务类型由原来DataX任务扩展到Shell任务、Python任务、PowerShell任务;
- 2五、添加HBase数据源支持,JSON构建可经过HBase数据源获取hbaseConfig,column;
- 2六、添加MongoDB数据源支持,用户仅须要选择collectionName便可完成json构建;
- 2七、添加执行器CPU、内存、负载的监控页面;
- 2八、添加24类插件DataX JSON配置样例
- 2九、公共字段(建立时间,建立人,修改时间,修改者)插入或更新时自动填充
- 30、对swagger接口进行token验证
- 3一、任务增长超时时间,对超时任务kill datax进程,可配合重试策略避免网络问题致使的datax卡死。
- 3二、添加项目管理模块,可对任务分类管理;
- 3三、对RDBMS数据源增长批量任务建立功能,选择数据源,表便可根据模板批量生成DataX同步任务;
- 3四、JSON构建增长ClickHouse数据源支持;
- 3五、执行器CPU.内存.负载的监控页面图形化;
- 3六、RDBMS数据源增量抽取增长主键自增方式并优化页面参数配置;
- 3七、更换MongoDB数据源链接方式,重构HBase数据源JSON构建模块;
- 3八、脚本类型任务增长中止功能;
- 3九、rdbms json构建增长postSql,并支持构建多个preSql,postSql;
- 40、数据源信息加密算法修改及代码优化;
- 4一、日志页面增长DataX执行结果统计数据;
Quick Start:
Introduction:
1.执行器配置(使用开源项目xxl-job)

- 一、"调度中心OnLine:"右侧显示在线的"调度中心"列表, 任务执行结束后, 将会以failover的模式进行回调调度中心通知执行结果, 避免回调的单点风险;
- 二、"执行器列表" 中显示在线的执行器列表, 可经过"OnLine 机器"查看对应执行器的集群机器;
执行器属性说明

一、AppName: (与datax-executor中application.yml的datax.job.executor.appname保持一致)
每一个执行器集群的惟一标示AppName, 执行器会周期性以AppName为对象进行自动注册。可经过该配置自动发现注册成功的执行器, 供任务调度时使用;
二、名称: 执行器的名称, 由于AppName限制字母数字等组成,可读性不强, 名称为了提升执行器的可读性;
三、排序: 执行器的排序, 系统中须要执行器的地方,如任务新增, 将会按照该排序读取可用的执行器列表;
四、注册方式:调度中心获取执行器地址的方式;
自动注册:执行器自动进行执行器注册,调度中心经过底层注册表能够动态发现执行器机器地址;
手动录入:人工手动录入执行器的地址信息,多地址逗号分隔,供调度中心使用;
五、机器地址:"注册方式"为"手动录入"时有效,支持人工维护执行器的地址信息;
2.建立数据源

第四步使用mysql
3.建立任务模版

第四步使用git
4. 构建JSON脚本
- 1.步骤一,步骤二,选择第二步中建立的数据源,JSON构建目前支持的数据源有hive,mysql,oracle,postgresql,sqlserver,hbase,mongodb,clickhouse 其它数据源的JSON构建正在开发中,暂时须要手动编写。


- 3.点击构建,生成json,此时能够选择复制json而后建立任务,选择datax任务,将json粘贴到文本框。也能够点击选择模版,直接生成任务。

5.批量建立任务


6.任务建立介绍(关联模版建立任务再也不介绍,具体参考4. 构建JSON脚本)
DataX任务

Shell任务

Python任务

PowerShell任务

7. 任务列表

8. 能够点击查看日志,实时获取日志信息,终止正在执行的datax进程



9.任务资源监控

10. admin能够建立用户,编辑用户信息

UI
前端github地址算法
Contributing
Contributions are welcome! Open a pull request to fix a bug, or open an Issue to discuss a new feature or change.sql
欢迎参与项目贡献!好比提交PR修复一个bug,或者新建 Issue 讨论新特性或者变动。mongodb
Copyright and License
MIT License数据库
Copyright (c) 2020 WeiYe
产品开源免费,而且将持续提供免费的社区技术支持。我的或企业内部可自由的接入和使用。
欢迎在
登记地址 登记,登记仅仅为了产品推广和提高社区开发的动力。
v-2.1.1
新增
- 添加HBase数据源支持,JSON构建可经过HBase数据源获取hbaseConfig,column;
- 添加MongoDB数据源支持,用户仅须要选择collectionName便可完成json构建;
- 添加执行器CPU.内存.负载的监控页面;
- 添加24类插件DataX JSON配置样例
- 公共字段(建立时间,建立人,修改时间,修改者)插入或更新时自动填充
- 对swagger接口进行token验证
- 任务增长超时时间,对超时任务kill datax进程,可配合重试策略避免网络问题致使的datax卡死。
升级:
- 数据源管理对用户名和密码进行加密,提升安全性;
- 对JSON文件中的用户名密码进行加密,执行DataX任务时解密
- 对页面菜单整理,图标升级,提示信息等交互优化;
- 日志输出取消项目类名等无关信息,减少文件大小,优化大文件输出,优化页面展现;
- logback为从yml中获取日志路径配置
修复:
- 任务日志过大时,查看日志报错,请求超时;
项目规划

Contact us
QQ交流群 795380631