Hadoop与Spark开源大数据技术栈概述

时间 2021-06-19

原文原文链接

随着大数据技术的快速发展，目前开源社区已经积累了比较完整的大数据技术栈，目前市场上应用最广泛的是以Hadoop与Spark为核心的生态系统。该生态系统分为5个层级分别是：数据收集，数据存储，资源管理与服务协调，计算引擎和数据分析。下面分别对这5个层级进行介绍 1.数据收集层：该层主要对关系型数据以及非关系型数据进行收集，以及分布式消息的收集 Sqoop/canal：关系型数据收集和导入工具，是连

>>阅读原文<<