alluxio2.0特性-预览

项目地址

https://github.com/Alluxio/alluxio/tree/branch-2.0-previewgit

2.0版本-构思和设计

支持超大规模数据工做负载

Alluxio做为计算和存储之间的数据编排层,使数据移动而且能够跨多个不一样的存储系统访问:HDFS,对象存储,网络附加存储,随着时间的推移,Alluxio须要的元数据支持规模 提供能够轻松超过最大的Hadoop部署。 特别是元数据管理被认为是Hadoop的弱点,但Alluxio应该将元数据管理变成一种优点。github

更友好的数据工程界面

Alluxio的建立重点是基于Hadoop的计算工做负载。 可是多年来,数据密集型计算工做负载的数量和类型已经爆炸式增加,而且在现有数据或新数据存储系统上实现这些工做负载的数据编排和工程设计很是重要。 特别是,在机器学习和深度学习培训以前,须要许多数据工程,包括手动数据移动。 Alluxio应该经过为数据科学家提供本地已知API同时减小所需的数据工程来大大简化这一过程。算法

使存储和计算更加分离

整个企业中的数据孤岛只会随着跨多个Hadoop集群的数据而增长,愈来愈多地存在于许多不一样的对象存储中,而且在一些状况下存储在内部或公共云中。 这使得计算与数据分解变得更加困难,由于数据处理被移动到与存储数据的位置不一样的位置时,数据位置和访问受到严重影响。 Alluxio应该经过抽象存储同时使数据更易于访问,继续实现计算和存储的分离。网络

2.0版本-进步和功能

Alluxio 2.0包含许多加强功能,以支持项目的设计目标,全部开源都将包含在Community Edition中!框架

支持超大规模数据工做负载

  • 支持超过10亿个文件 - 2.0引入了分层元数据管理的新选项,以支持具备超过10亿个文件的单个群集部署。咱们使用RocksDB进行非堆存储,如今是默认的。热数据的元数据继续存储在堆上的进程内存中,而其他元数据由进程内存外的Alluxio管理。 alluxio.master.metastore能够配置为仅更改成堆。
  • 高度分布式数据服务 - 2.0引入了Alluxio做业服务,这是一种分布式集群服务,如今可使用复制,持久性,交叉存储移动和分布式负载等数据操做,从而实现高性能和大规模扩展。看一下Alluxio支持的全部文件系统API。
  • 加强数据局部性的自适应复制 - 为自动管理的Alluxio中存储的数据副本配置范围的新功能。 alluxio.user.file.replication.max和alluxio.user.file.replication.min可用于指定范围。可在此处找到全部用户配置的完整列表
  • 嵌入式日志的高可用性 - 文件和对象元数据的新容错和高可用性模式称为嵌入式日志,它使用RAFT一致性算法,独立于任何其余外部存储系统。这对于抽象对象存储特别有用。了解如何在此配置嵌入式日记

在任何存储上启用机器学习和深度学习工做负载

机器学习和深度学习框架须要从Hadoop和对象存储中提取数据,这一般是一个很是手动且耗时的过程。机器学习

  • Alluxio POSIX API Alluxio的FUSE功能支持POSIX兼容API,所以TensorFlow,Caffe和其余基于Python的模型等框架可使用传统的文件系统访问经过Alluxio直接访问任何存储系统中的数据。了解有关POSIX API的更多信息。

更好的存储抽象,实现彻底独立和弹性的计算

  • 支持不一样版本的HDFS集群 - 数据的爆炸性增加致使企业拥有许多数据孤岛,包括跨多个不一样版本的多个Hadoop集群。目前,跨这些集群的统一访问很是困难。使用Alluxio 2.0,用户可使用Alluxio的任何版本链接到多个HDFS集群,并统一数据访问。在此处查找支持的HDFS版本列表。
  • 与Hadoop主动同步 - 新功能与HDFS iNotify集成,可更新存储在Hadoop中的文件所发生的任何数据和元数据更改,容许应用程序经过Alluxio访问数据,以主动接收最新更新。

原文地址:https://www.alluxio.com/blog/announcing-alluxio-20-preview-enabling-hyper-scale-data-workloads-in-the-cloud分布式

相关文章
相关标签/搜索