Alluxio 2.0:在云上实现超大规模数据工做负载

 

1、构思和设计阶段

 

当核心项目团队在若干个月以前开始考虑下一个Alluxio大型版本发布时,咱们开始力求实现一些重要的整体目标。虽然以前版本的Alluxio已经为云环境中的许多大数据工做负载提供了数据本地性和数据可访问性,但在关键领域仍然须要进一步创新。html

  • 在规模方面取得阶跃式变化——做为计算和存储之间的数据编排层,Alluxio使得数据可以移动,而且能够跨多个不一样的存储系统(HDFS、对象存储、网络附加存储)访问。随着时间的推移,Alluxio须要支持管理的元数据规模会很轻易地超过最大规模的Hadoop部署。元数据管理尤为被认为是Hadoop的一个弱项,然而元数据的管理应该成为Alluxio的强项。算法

  • 支持更多数据驱动的工做负载——Alluxio在创立之初主要关注基于Hadoop的计算工做负载。可是多年来,数据密集型计算工做负载的数量和类型已经呈爆炸式增加,而且在现有数据存储系统或新数据存储系统上实现这些工做负载的数据编排和工程设计都很是重要。特别地,在机器学习和深度学习的训练过程以前,一般须要开展许多数据工程的工做,例如手动进行数据移动。Alluxio应该大大简化这一过程,为数据科学家提供已知原生API,减小所需的数据工程工做量。api

  • 使存储和计算更容易分离——随着跨多个Hadoop集群的数据的增长,以及愈来愈多的数据存储在许多不一样的对象存储中,或在某些状况下存储在内部或公有云中,企业中的数据仓库会不断增长。这使得从数据中分离计算变得更加困难,由于当数据在处理过程当中移动到与其存储不一样的位置时,数据本地性和可访问性会受到严重影响。Alluxio应当继续经过抽象存储来实现计算和存储的分离,同时使得数据更容易访问。网络

考虑到这些远大的目标,工程和产品团队在设计、实现、测试和压测中付出了不懈的努力,最终将Alluxio 2.0变为现实。框架

 

2、进步和功能

 

       Alluxio 2.0包含许多加强功能,用以支持本项目的设计目标,这些功能所有是开源的,并都将包含在社区版(Community Edition)中!机器学习

2.1 支持超大规模数据工做负载

  • 支持超过10亿个文件——2.0引入了分层元数据管理(tiered metadata management)这一新选项,以支持包含超过10亿个文件的单群集部署。咱们如今默认使用RocksDB(见文末连接3)进行堆外存储。热数据的元数据继续存储在堆内的进程内存中,而其他元数据由Alluxio在进程内存外进行管理。alluxio.master.metastore(见文末连接4)能够配置为仅使用堆内存储。分布式

  • 高度分布式数据服务——2.0引入了Alluxio做业服务(Job Service),这是一种分布式集群服务,能够实现复制、持久化、跨存储移动和分布式加载等数据操做,从而实现高性能和大规模扩展。用户能够在这里查看Alluxio支持的全部文件系统API(见文末连接5)。ide

  • 自适应副本以加强数据本地性——该功能为Alluxio配置必定数量范围的自动管理的存储数据副本数。alluxio.user.file.replication.max和alluxio.user.file.replication.min可用于指定该范围。用户可在此处(见文末连接6)找到全部用户配置的完整列表。oop

  • 内嵌式日志以达到高可用性——2.0设计了一种称为内嵌式日志(embedded journal)的面向文件/对象元数据的新容错和高可用模式。内嵌式日志使用RAFT共识算法,而且实现方面独立于任何其余外部存储系统。这对于抽象对象存储特别有用。用户能够在这里(见文末连接7)了解如何配置内嵌式日志。性能

2.2 支持在任意存储上运行机器学习和深度学习工做负载

机器学习和深度学习框架每每须要从Hadoop或对象存储中提取大规模数据,这一般是手动且很是耗时的过程。

  • Alluxio POSIX API :Alluxio的FUSE功能支持POSIX兼容的API,所以经过Alluxio,TensorFlow、Caffe等框架以及其余基于Python的模型可使用传统文件系统的访问方式直接访问任何存储系统中的数据。用户能够在POSIX API(见文末连接8)了解有关的更多信息。

2.3 更好的存储抽象,实现彻底独立和弹性的计算

  • 支持跨不一样版本的HDFS集群——数据的爆炸式增加致使企业一般会拥有许多数据仓库,包括采用跨不一样版本的多个Hadoop集群。目前,跨这些集群的统一访问很是困难。使用Alluxio 2.0,用户可使用Alluxio链接到多个多种版本的HDFS集群,并实现统一的数据访问。用户能够在此处查找支持的HDFS版本列表。

  • 与Hadoop主动同步——该新功能是与HDFS iNotify进行对接集成,可对存储在Hadoop中的文件所发生的任何数据和元数据更改进行更新,容许经过Alluxio访问数据的应用程序可以主动接收最新更新。

 

3、反 馈

 

咱们很是期待您的反馈。如今Alluxio 2.0预览版已经可供下载使用,咱们真诚地但愿您试试Alluxio 2.0,并与咱们分享你的体验——咱们可以但愿听到:您感到兴奋的内容,以及您认为哪些地方能够作得更好,或者您认为咱们下一步应该关注什么。咱们很是期待听到你的故事。

 

附录连接: 

连接1:

https://www.alluxio.org/download

连接2:

https://www.alluxio.org/download/releases/alluxio-200-preview-release

连接3:

https://rocksdb.org/

连接4:

https://www.alluxio.org/docs/2.0-preview/en/reference/Properties-List.html?q=alluxio.master. metastore#master-configuration

连接5:

https://www.alluxio.org/docs/2.0-preview/en/basic/Command-Line-Interface.html?q=File%20System%20Operations#file-system-operations

连接6:

https://www.alluxio.org/docs/2.0-preview/en/reference/Properties-List.html?q=replication#worker-configuration

连接7:

https://www.alluxio.org/docs/2.0-preview/en/operation/Journal.html?q=

job%20service#embedded-journal-configuration

连接8:

https://www.alluxio.org/docs/2.0-preview/en/api/POSIX-API.html

连接9:

https://www.alluxio.org/slack

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

相关文章
相关标签/搜索