DataLake with Hadoop Ecosystem

   Hadoop是实现数据湖最常用的技术手段,目前是最理想的选择,Hadoop生态系统提供批处理、实时处理引擎,还提供海量数据存储能力,数据处理架构如下图: 目前常见的两种使用方式: 1) 第一种方式是将Hadoop作为ETL工具,并且数据备份或者冷数据存储其PB级别数据,在Hadoop中数据冗余而且较容易恢复,如下图所示: MapReduce及Spark Engine可以用来处理非结构化数据,
相关文章
相关标签/搜索