有关数仓增量和全量同步的一些思考

1、背景 相信不少公司都是基于Hive作的数仓,从而对外提供数据服务。这里只讨论离线数仓,作数仓必然离不开对大量数据的ETL处理工做。目前的ETL种类繁多,可选择的工具也有不少,好比使用Sqoop, DataX作离线的T+1数据同步, Spark或者Flink作T+0的实时数据同步等。web 目前有不少公司业务是T+1的,天天须要同步昨天的业务库(MySQL、mongodb等)的数据到Hive数据
相关文章
相关标签/搜索