EMR:一体化Hadoop云上工做平台

Hadoop生态体系日臻完善,如何利用Hadoop生态各项技术与阿里云更好的服务于企业。EMR最新发布的工做流管理、弹性伸缩、异构计算多项功能,更好的助力用户在阿里云上利用Hadoop、Spark生态体系解决企业大数据问题。shell

EMR数据开发工做台
EMR数据开发工做台集成了做业编辑、工做编辑和临时查询等功能,能更好的知足用户云上离线数据处理、数据分析和探索挖掘等场景。主要特色在于:框架

  1. 支持多样化的大数据做业,支持shell,Hive,MapReduce,Spark,SparkStreaming等多种离线,实时类型做业,企业数据开发人员可在线编辑,调试。
  2. 更低的数据开发门槛,用户经过拖拽式的大数据开发完成数据的接入,相较于Oozie、Azkaban等开源解决方案,运营人员,数据科学家能够更直观的进行大数据开发。
  3. 交互式数据探索,为用户提供交互式Hive、SparkSQL查询、分析,快速提取海量数据价值。

集群弹性伸缩
EMR弹性伸缩能更好的缝合公有云计算资源弹性和Hadoop生态体系开放的两大优点,实现计算资源根据集群繁忙程度弹性伸缩,帮助企业下降Hadoop资源的使用成本。机器学习

  1. 定时扩缩容集群,用户设置在制定时间对集群进行扩容、缩容,知足日报、周报、月报等需临时追加计算资源的场景。
  2. 支持多种ECS实例,受ECS库存影响,弹性伸缩会因为库存不足形成执行失败,为提高伸缩动做执行成功几率,弹性伸缩可同时支持多种ECS实例,且能一次性把尽可能多的库存资源所有买出,保证集群资源。

EMR Learning
深度学习、AI以成为目前煊赫一时的词汇,EMR Learning将深度学习和开源大数据技术深度结合,提供一体化的大数据+深度学习服务。利用一个集群,构建企业数据湖,同时进行机器学习和深度学习。oop

  1. 支持ECS CPU+GPU的异构计算,经过Hadoop YARN调度集群GPU资源
  2. 支持Horvod,TensorFlow,SparkML等计算框架,一个集群内进行机器学习和深度学习。
  3. 可采用PS、MPI等数据通讯模式,解决深度学习的通讯瓶颈
  4. 支持Docker,Muti-Env多运行环境隔离
相关文章
相关标签/搜索