袋鼠云研发手记 | 数栈·开源：Github上400+Star的硬核分布式同步工具FlinkX

时间 2019-12-06

标签袋鼠研发手记开源 github 400+star star 硬核分布式同步工具 flinkx 栏目 Git 繁體版

原文原文链接

做为一家创新驱动的科技公司，袋鼠云每一年研发投入达数千万，公司80%员工都是技术人员，袋鼠云产品家族包括企业级一站式数据中台PaaS数栈、交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代。在进行产品研发的过程当中，技术小哥哥们能文能武，不断提高产品性能和体验的同时，也把这些提高和优化过程记录下来，现录入“袋鼠云研发手记”专栏中，以和业内童鞋们分享交流。java

下为“袋鼠云研发手记”专栏第二期，本期做者为袋鼠云数栈引擎团队。git

袋鼠云数栈引擎团队github

袋鼠云数栈引擎团队拥有多名专家级别，经验丰富的后端开发工程师，分别支撑公司大数栈产品线的不一样子项目的开发需求，从项目中提取并开源了FlinkX（基于Flink的数据同步）,Jlogstash（logstash 的java 版本实现）,FlinkStreamSQL（扩展原生FlinkSQL，实现流与维表的join）多个项目。数据库

在长期的项目实践与产品迭代过程当中，团队成员在 Hadoop技术栈上不断深耕探索，积累了丰富的经验与最佳实践。后端

第二期
数栈·开源
Github上400+Star的「硬核」分布式同步工具FlinkX安全

FlinkX 已经开源在Github上目前已获400+Star，查看地址：https://github.com/DTStack/fl...网络

一、袋鼠云为何要自研数据同步工具？架构

袋鼠云做为一家数据智能公司，自研开发企业级一站式数据中台PaaS产品——数栈。框架

关于数栈运维

数栈具备8大产品模块

离线/实时开发套件

一站式大数据开发平台，帮助企业快速彻底数据中台搭建

分析引擎

海量数据秒级查询，极速响应能力，帮助企业自由的数据探索

数据质量

对过程数据和结果数据进行质量校验，帮助企业及时发现数据质量问题

数据地图

可视化的数据资产中心，帮助企业全盘掌控数据资产状况和数据的来源去向

数据模型

使企业数据标准化，模型化，帮助企业实现数据管理规范化

数据API

快速生成数据API、统一管理API服务，帮助企业提升数据开放效率

Easy[V]

在线拖拉拽的方式快速搭建交互式数据可视化大屏，让数据价值看得见

EasyManager

全自动化，全生命周期的运维管家，提供安全稳定的数栈部署与监控服务

其中，「数据同步」是数栈开发套件中一个很是重要的功能，咱们对数据同步工具备3点要求：

一是支持多种部署模式，好比测试单机部署，生产分布式部署。

二要基于yarn，mesos或者k8s作资源调度，提升资源利用率。

三要支持断点续传。由于在大数据量的传输场景下，因为网络出现抖动等缘由，可能致使任务失败，那这个时候不可能重跑任务，这样太耗时了，须要从失败的点继续跑；

当时，市面上，并无知足以上三点要求的数据同步工具。

二、为何基于Flink？

Flink是新型的计算框架，支持多种部署方式local(单机)，standalone模式，也能够基于yarn，mesos或者k8s作资源调度；而且flink提供了比较高级的API，咱们能比较方便地扩展示有的API来知足咱们本身的特殊需求；并且Flink提供了完整的状态管理体系（checkpoint），断点续传就是基于checkpoint机制来实现的。

数据同步工具对比

三、FlinkX 概览

FlinkX是在袋鼠云内部普遍使用的一个基于Flink的异构数据源离线同步工具，用于在多种数据源（MySQL、Oracle、SqlServer、Ftp、Hdfs,HBase、Hive、Elasticsearch等）之间进行高效稳定的数据同步。

FlinkX简化了数据同步任务的开发过程，用户只需提供一份数据同步任务的配置，FlinkX会将配置转化为Flink任务，并自动提交到Flink集群上执行。

做为一个面向分布式数据流处理和批量数据处理的开源计算平台，Flink具备分布式、低延迟、高吞吐和高可靠的特性。

FlinkX实现了多种异构数据源之间高效的数据迁移

四、FlinkX的设计思路

2.1 插件式架构

FlinkX采用了一种插件式的架构：

不一样的源数据库被抽象成不一样的Reader插件；

不一样的目标数据库被抽象成不一样的Writer插件；

整个数据同步任务共有的处理逻辑被抽象在Template模块中，该模块根据数据同步任务配置加载对应的Reader和Writer插件，组装Flink任务，并提交到Flink集群执行；

FlinkX支持任意数据源类型的数据同步工做

FlinkX框架能够支持任意数据源类型的数据同步工做。做为一个开放式系统，用户能够根据须要开发新的插件，以接入新的数据库类型。

2.2 Flink任务的自动组装

Template模块根据同步任务的配置信息加载源数据库和目的数据库对应的Reader插件和Writer插件；

Reader插件实现了InputFormat接口，从源数据库中获取DataStream对象；

Writer插件实现了OutputFormat接口，将目的数据库与DataStream对象相关联；

Template模块经过DataStream对象将Reader和Writer串接在一块儿，组装成一个Flink任务，并提交到Flink集群上执行。

Flink任务的自动组装

五、FlinkX的优点

1、便于使用

用户只须要提供一份数据同步配置信息，无需编写程序，FlinkX会配置信息自动转换为Flink任务并提交到Flink集群执行。

2、性能优越

FlinkX会将数据同步任务提交到Flink集群中的执行，使得FlinkX自然具备Flink的性能优点，主要表现为分布式、低延迟、高吞吐和高可靠。

3、多运行模式

同普通的Flink任务同样，FlinkX支持local、standalone和yarn三种运行模式。

「local模式」就是在本地开启一个mini的Flink集群执行Flink任务，这种运行模式的好处是使用方便，不须要预先启动分布式集群，适用于测试和实验环境；缺点是因为单点执行，可靠性差，当数据量大时吞吐量受限；

「standalone模式」是指以独立部署的方式启动一个Flink集群，而后将提交Flink任务到该集群上执行；

「yarn模式」是指在yarn集群中部署Flink集群，而后将Flink任务提交到部署在yarn集群中的Flink集群上执行；standalone模式和yarn模式都是分布式地执行FlinkX，而yarn模式能够利用yarn的资源管理功能，于是成为部署FlinkX应用时的首选。

4、开放式可扩展

只要你愿意，你能够给任何类型的数据源开发Reader和Writer插件。

5、错误控制和脏数据管理

错误控制能够在数据同步配置信息中设置错误记录阈值、错误占比阈值，使得数据同步任务在出错时及时中止，避免系统资源的浪费。

脏数据管理能够将错误记录、错误缘由、错误类型输出到Hive表中，便于往后的排查工做。

六、FlinkX在数栈产品中的应用

使用数栈的数据开发套件，用户能够经过界面向导可视化的建立一个数据同步任务，而FlinkX正是数据同步的底层执行引擎。

FlinkX在袋鼠云数栈产品中的应用