阿里云《云原生数据湖体系白皮书》正式对外发布

近日,阿里云正式发布了云原生数据湖体系,详情请参见一文读懂云原生数据湖体系,由对象存储OSS、数据湖构建Data Lake Formation、E-MapReduce产品强强组合,提供存储与计算分离架构下,湖存储、湖加速、湖管理、湖计算的企业级数据湖解决方案。web


阿里云《云原生数据湖体系白皮书》随后也正式对外发布。电子书涵盖了阿里云对云原生数据湖的定义、行业内领先的云原生数据湖技术、云原生数据湖存储、云原生数据湖加速、云原生数据湖构建、云原生计算引擎以及云原生数据湖治理等内容。算法


复制该连接到浏览器完成下载或分享:(文末阅读原文可直达)浏览器

https://developer.aliyun.com/topic/download?id=900

 

 

目录安全

 

 

其中的云原生数据湖技术系列专题,将告诉你们如何基于阿里云 OSS 、JindoFS和数据湖构建(Data Lake Formation,DLF)等基础服务,结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系。微信

 


数据湖存储 OSS


阿里云对象存储 OSS 是数据湖的统一存储层,它基于12个9的可靠性设计,可存储任意规模的数据,可对接业务应用、各种计算分析平台,很是适合企业基于OSS构建数据湖。架构


相对于HDFS来讲,OSS能够存储海量小文件,而且经过冷热分层、高密度存储、高压缩率算法等先进技术极大下降单位存储成本。同时OSS对Hadoop生态友好,且无缝对接阿里云各计算平台。针对数据分析场景,OSS推出 OSS Select、Shallow Copy和多版本等功能,加速数据处理速度,加强数据一致性能力。app


数据湖加速


对象存储系统在架构设计上和 HDFS 等分布式文件系统存在必定差别,同时存储和计算分离架构中 OSS 是远端的存储服务,在大数据计算层面缺乏对数据本地化的支持。编辑器


所以,在 OSS 对象存储服务的基础上,阿里云定制了自研的大数据存储服务 —— JindoFS,极大的提高数据湖上的引擎分析性能,在TPC-DS、Terasort等常见的benchmark测试中,采用计算存储分离架构的 JindoFS性能已经达到或超过了本地部署的HDFS。分布式


同时JindoFS彻底兼容 Hadoop 文件系统接口,给客户带来更加灵活、高效的计算存储方案,目前已验证支持Hadoop开源生态中最主流的计算服务和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。当前 JindoFS存储服务包含在阿里云 EMR 产品中,将来 JindoFS会有更多的产品形态服务于数据湖加速场景。
工具


数据湖构建(DLF)


传统的数据湖架构很是强调数据的统一存储,但对数据的Schema管理缺少必要的手段和工具,须要上层分析和计算引擎各自维护元数据,而且对数据的访问没有统一的权限管理,没法知足企业级用户的需求。


数据湖构建(DLF)服务是阿里云在2020年9月推出的针对数据湖场景的核心产品,主要为了解决构建数据湖过程当中用户对数据资产的管理需求。DLF 对 OSS 中存储的数据提供统一的元数据视图和统一的权限管理,并提供实时数据入湖和清洗模板,为上层的数据分析引擎提供生产级别的元数据服务。

 

云原生计算引擎


当前阿里云上众多云原生计算引擎已经接入或准备接入数据湖构建服务,包括阿里云EMR上的开源计算引擎Spark、Hive、Presto、Flink以及大数据计算服务 MaxCompute、数据洞察 Databricks 引擎和数据湖分析(DLA)等。


以最经常使用的开源引擎 Spark 为例,阿里云 Spark 能够直接对接数据湖构建的元数据服务,运行在多集群或多平台上的 Spark 任务共享同一个数据湖元数据视图。而且 EMR 为 Spark 推出了Shuffle Service服务,Spark 引擎所以得到云原平生台上的弹性扩缩容能力。云原生计算引擎结合数据湖架构能够得到更高的灵活度并极大的下降数据分析成本。

 

另外,云原生数据仓库 MaxCompute也准备接入数据湖构建服务,将来数仓和数据湖将会发生什么样的化学反应呢?敬请期待。

 

数据湖治理


DataWorks数据综合治理可为阿里云客户提供统一的数据视图,用于掌握数据资产的现状、助力数据质量的提高、提升获取数据的效率、保障数据安全的合规并提高数据查询的分析效率。能够有效支撑离线大数据仓库的构建、数据联邦的查询和分析处理、海量数据的低频交互式查询和智能报表的构建,以及数据湖方案的实现。

 

综上所述,利用阿里云的基础组件和总体解决方案,用户能够方便的构建一个数据湖平台,完成企业大数据架构转型。



更多数据湖相关解决方案讨论,请加入产品钉钉群



福利指路:

进入钉钉群后,在群内提出对本册电子书内容的相关问题和建议,前20名送社区小礼物。请私信群管理员 天宇 收件信息和T恤尺码哦




数据湖构建公测进行时,官网地址:

https://www.aliyun.com/product/bigdata/dlf




电子书下载连接,请点击“阅读原文”直达👇

本文分享自微信公众号 - Delta Lake技术圈(deltalake-emr2020)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索