阿里云 Elastic MapReduce(E-MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。E-MapReduce 构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户能够方便地使用Hadoop和Spark生态系统中的其余周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和处理本身的数据。不只如此,用户还能够经过E-MapReduce将数据很是方便的导出和导入到阿里云其余的云数据存储系统和数据库系统中,如阿里云 OSS、阿里云 RDS 等。node
课程连接:快速掌握阿里云 E-MapReduce数据库
E-MapReduce 的用途:安全
当用户想要使用 Hadoop、Spark 等分布式处理系统的时候,一般须要经历以下的步骤:服务器
在这些流程中,真正跟用户的应用逻辑相关的是从第8步才开始,第1-7步的各项工做都是前期的准备工做,一般这个前期工做都很是冗长繁琐。而 E-MapReduce 提供了集群管理工具的集成解决方案,如主机选型、环境部署、集群搭建、集群配置、集群运行、做业配置、做业运行、集群管理、性能监控等。架构
经过使用 E-MapReduce,用户能够从集群构建各类繁琐的采购、准备、运维等工做中解放出来,只关心本身应用程序的处理逻辑便可。此外,E-MapReduce 还给用户提供了灵活的搭配组合方式,用户能够根据本身的业务特色选择不一样的集群服务。例如,若是用户的需求是对数据进行平常统计和简单的批量运算,则能够只选择在 E-MapReduce 中运行 Hadoop 服务;而若是用户还须要流式计算和实时计算的需求,则能够在 Hadoop 服务基础上再加入 Spark 服务。app
E-MapReduce 的组成:运维
E-MapReduce 最核心也是用户直接面对的组件是集群。一个 E-MapReduce 集群是由一个或多个阿里云 ECS instance 组成的 Hadoop 和 Spark 集群。以 Hadoop 为例,在每个 ECS instance 上,一般都运行了一些 daemon 进程(如 namenode、datanode、resoucemanager 和 nodemanager),这些 daemon 进程就组成了 Hadoop 集群。运行 namenode 和 resourcemanager 的节点被称为 master 节点,而运行 datanode 和 nodemanager 的节点被称为 slave 节点。分布式
例如,下图表示了一个包含1个 master 节点和3个 slave 节点的 E-MapReduce 集群:工具
产品架构:oop
从上图能够看出,E-MapReduce 集群基于 Hadoop 的生态环境来搭建,同时能够跟阿里云的对象存储服务(OSS),云数据库(RDS)等云服务进行无缝数据交换,方便您将数据在多个系统之间进行共享和传输,以知足不一样业务类型的访问须要。
更多精品课程:
阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场)