使用Spark集群进行ETL的架构介绍

什么是ETL: ETL(extract提取、transform转换、load加载)。ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。sql 使用Spark开发ETL系统的优点: 一、因为海量的日志记录、交易记录,单机进行ETL变得愈来愈困难。搭建一套具有大规模数据
相关文章
相关标签/搜索