有关数仓增量和全量同步的一些思考

时间 2020-07-12

原文原文链接

1、背景相信不少公司都是基于Hive作的数仓，从而对外提供数据服务。这里只讨论离线数仓，作数仓必然离不开对大量数据的ETL处理工做。目前的ETL种类繁多，可选择的工具也有不少，好比使用Sqoop, DataX作离线的T+1数据同步, Spark或者Flink作T+0的实时数据同步等。web 目前有不少公司业务是T+1的，天天须要同步昨天的业务库（MySQL、mongodb等）的数据到Hive数据

>>阅读原文<<