今天,随着企业数字化进程的推动,多云成为了企业IT基础设施建设的重要特色。多云战略的实施,帮助企业下降了成本,提升了服务效率及安全性。特别是全球性跨国公司,不只须要业务集中化管理,同时须要知足不一样地域的业务运营和监管需求。相比于 AWS、Azure、谷歌云等公有云上的云原生数据仓库,HashData 经过支持多种对象存储,可以提供彻底兼容多个公有云与混合云的数据管理能力。数据库
以Amazon S3为例,以下表格从多个维度将对象存储与Hadoop 体系架构中的HDFS进行比较:
咱们能够看到,相对于传统的HDFS分布式存储,以S3为表明的对象存储服务不只具有弹性能力,同时在可用性与持久性上也提升了约一个数量级,而成本却只有前者的十分之一。因而可知,在云计算时代,对象存储已经全面超越HDFS,成为将来大数据的基础。安全
此外,对象存储的访问方式是基于HTTP协议的,可以无缝与各类Web应用和工具集成,并应用于广域网,从而实现跨数据中心、跨云平台的数据访问,使多云架构、跨云数据共享成为可能。服务器
在主流的数据库系统(包括Oracle、DB二、PostgreSQL等)术语中,都有一个叫表空间(Tablespace)的概念。表空间是数据库系统中,数据库逻辑结构和文件系统物理结构之间创建映射的重要存储结构,它做为数据库与实际存储数据的物理存储设备之间的中间层,用来指明数据库中数据存放的物理位置。任何表的建立都必须显式或隐式地为其指定表空间,且数据库中的全部数据均位于表空间中。架构
继承于PostgreSQL的表空间,HashData云数据仓库创新性地在传统的表空间与对象存储中的存储桶(Bucket)之间创建映射关系,经过不一样的表空间无缝对接多个跨平台、跨地域的对象存储系统,从而实如今一个集群中访问不一样平台、不一样类型、不一样地域的对象存储系统,使得应用能够根据数据重要性、访问地域等因素选择性地将不一样数据放在不一样的对象存储系统中。分布式
下面,咱们以数据加载为例,比较一下传统ETL架构图(基于Greenplum Database)与HashData基础架构对比图:
HashData 数据库ETL架构(上图右)相对于传统的数据库ETL架构(上图左)不须要额外的ETL服务器支持以及配置复杂的ETL过程。咱们只须要将原始数据文件上传到对象存储上,而后在数据库中建立指向这些数据文件的外部表,即可以使用OSS协议,经过segment进行并行的数据导入,并将通过格式转化、编码压缩的数据(方便后续的高效访问)从新落回到对象存储中,完成ETL过程。工具
以某网省数据迁移为例,本来应用的商业版对象存储,在自建对象存储团队后,用自研对象存储替换商业版对象存储,总数据量约为2PB,存储半年数据,应用方案以下:oop
实践中,如下为整个方案的核心过程模拟,经过HashData 集群将数据从一个Bucket(表明旧的对象存储)迁移到另外一个Bucket(表明新的对象存储)下面,使用的对象存储是青云QingCloud的对象存储服务QingStor:性能
多云环境下,面对市场上多个公有云厂商(如AWS、阿里云、腾讯云等,它们提供各自的对象存储服务)及种类繁多的私有云解决方案(它们的对象存储大多基于开源的Ceph,Swift,Minio等),如何高效、安全且低成本地实施多云战略是每一个CIO须要认真考虑的问题。自公司创立之初,咱们就坚信对象存储将成为将来大数据的基础。做为公司旗舰产品,HashData 云数据仓库围绕着对象存储和抽象服务构建,经过将计算与存储解耦,支持多种对象存储,使跨云、跨数据中心的数据共享成为了可能,为企业多云战略的实施提供了一个灵活而易用的解决方案。大数据