解读当前企业在数据集成方面遭遇的四大挑战

时间 2019-11-13

标签解读当前企业数据集成方面遭遇四大挑战繁體版

原文原文链接

什么是数据集成？最简单的应用场景就是：一个数据源，一个数据目的地，数据目的地能够是个数据仓库，把关系型数据库的数据同步到数据仓库里，就造成了一次数据集成。数据库

下面，咱们来看一个真实的数据集成企业案例。api

G公司是DataPipeline的一个典型客户，拥有近千个数据源，类型主要包括Oracle、SQL Server、MySQL等。根据业务的须要和现有的基础设施状况，这些数据源分别须要同步到不一样的目的端，类型主要包括MySQL、HDFS、Kafka等。基于以上背景，G公司的具体要求以下：运维

1. 须要支持约5TB日新增数据量的同步，今年将增加5-10倍。orm

2. 这些数据一部分数据源要求实时同步，另外一部分可接受定时同步。blog

3. 缺少强大的运维人才，现有数据源的业务承载压力有限，对压力很是的敏感，要求进行限流。ip

4. 从这些数据源到目的地的同步都是Kettle写脚本实现的，管理起来比较混乱，要求经过一个管理平台对任务进行集中化的配置和管理。同步

5. 上游的数据源和下游的数据目的都不稳定，随时可能出现各类问题，要求经过一个高可用的平台以减小数据传输中断的影响。数据分析

6. 当数据同步任务被随机的暂停/恢复时，要求能够保证数据的完整性。pip

7. 当数据源和目的地随机出现故障和过载时，要求能够保证数据的完整性。io

8. 当数据源Schema发生变化时，要求能够根据业务需求灵活配置目的地策略。

G公司的案例只是当前企业数据集成需求的一个典型应用场景。事实上，不管是互联网企业仍是传统企业，在面临数据集成的时候都会遇到如下4个挑战：

1. 数据源的异构性：传统ETL方案中，从数据源到目的地的同步都是脚本实现的，异构数据源就意味着企业要作大量的适配工做。

2. 数据源的动态性：在数据集成时，上游的数据源端常常会发生各类变化，有些数据源可能被删掉一些结构，这可能会影响到后续数据分析的结果。

3. 任务的可伸缩性：当数据集成只有几个数据源，系统压力的问题不太突出。当数据集成面临的是成百上千个数据源时，多任务并行就须要进行一些限速与缓冲的调度，让读写速度相互匹配。

4. 任务的容错性：当数据在传输过程当中出现问题的时候，是否能够实现断点重传，且不产生重复的数据。

以上也是DataPipeline要为企业数据集成过程当中解决的最关键的4个问题。

更多关于实时数据集成的问题，欢迎直接访问官方网址申请试用：www.datapipeline.com