Hadoop与Spark开源大数据技术栈概述

随着大数据技术的快速发展,目前开源社区已经积累了比较完整的大数据技术栈,目前市场上应用最广泛的是以Hadoop与Spark为核心的生态系统。该生态系统分为5个层级分别是:数据收集,数据存储,资源管理与服务协调,计算引擎和数据分析。下面分别对这5个层级进行介绍 1.数据收集层: 该层主要对关系型数据以及非关系型数据进行收集,以及分布式消息的收集 Sqoop/canal:关系型数据收集和导入工具,是连
相关文章
相关标签/搜索