数仓架构的持续演进与发展 — 云原生、湖仓一体、离线实时一体、SaaS模式

简介:数据仓库概念从1990年提出,通过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程当中,数据仓库面临着不一样的挑战。web

做者 张良模 阿里云智能资深产品专家数据库

image.png

谈到数据仓库,咱们每每容易忽略“数据”两个字,阿里云有着不少业务场景和业务体系,在这些数据应用之下咱们如何管理数据的呢?数据仓库是如何帮到咱们以及它自身是如何演进的?安全

数据仓库概念从1990年提出,通过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程当中,数据仓库面临着不一样的挑战。服务器

image.png

第一 启动成本高、建设周期长,价值难以快速验证

对于数仓的建设人员,面临的挑战是业务人员但愿数仓建设周期能更短。而传统数据仓库每每要面临从采购服务器,创建物理仓库到逻辑仓库等一个较长的周期,因此数据仓库面临的第一个挑战就是怎样去下降建设周期。网络

第二 如何处理多样数据,拥抱新技术,充分挖掘数据价值

随着大数据的到来,传统数据仓库管理的大可能是结构化数据。如何对半结构化的数据进行统一全面的管理就成为传统数据仓库面临的第二个挑战。架构

第三 难以共享企业数据资产、数据创新成本高

数据仓库更增强调管理和安全,在强调安全的状况下如何在组织里以及整个生态上下游中更好的共享和交换数据,成为了新的挑战。例如在企业的部门间或业务间依然存在为数很多的数据孤岛,数据共享成本高,缺少企业级别的统一的数据获取出口,由此致使数据消费方获取数据困难,难于自助分析,严重依赖IT部门支持来知足企业更普遍的数据需求。运维

第四 平台架构复杂、运营成本高

随着数据处理种类的多样化和数据量的不断变大,不一样的技术被叠加在一块儿从而使得数据仓库架构变得愈加复杂。同一企业里每每会同时存在各类技术类型的数据仓库。因此如何简化数据仓库的架构也是面临的一个重要挑战。通常须要投入专业团队负责管理复杂的数据平台,同时对资源利用率不高的状况进行管理和治理。机器学习

第五 知足业务须要的扩展性、弹性、灵活性

业务快速发展的企业,常常会有大促活动,补数据,处理很是规事件的需求,如何快速扩展数仓性能,提升业务峰谷的响应时效,也带来不少挑战。oop

对于传统数据仓库面临的这些挑战,在技术和业务的驱动下新型数据仓库如何应对呢?这里能够看到六个主要的驱动力。性能

image.png

第一 咱们但愿有一个统一的数据平台,能去链接,去存储和处理多种数据。

第二 实时化,企业基于数据驱动能实时对业务做出支撑和决策的信息,这里有更高时效性的要求。

第三 数据量变得很是庞大,在海量数据中如何找到想要的数据,就须要有一张地图,要对数据进行管理和治理。

第四 传统数据仓库中,数据的存储采用集中的方式,必定要把数据集中在同一个存储中。而在新的业务驱动下,须要去链接数据而不是统一存储在一块儿。

第五 数据仓库之上如何支持更多智能化的应用,信息化的业务以及业务的信息化等关系。这就是数仓智能化和智能化数仓的需求驱动力。

第六 数据领域的不一样角色对数据平台有着不一样需求。例如数据工程师,数据分析人员,数据科学家等,他们对数据平台的响应时间,处理速度,数据量,开发语言等有着不一样的需求。因此更多的作好分析服务,成为数据管理平台第六个驱动力。

据仓库在不断地演进过程当中,从30年前的概念来看已经注入了更多新的内涵。对于新的内涵,咱们能够从数据仓库的基础架构,数据架构,数据分析以及服务模型四个角度来明显看到云原生,湖仓一体,离线实时一体化、服务模型的SAAS化的演进趋势。

云原生 — 数仓基础架构的演进方向

云原生是数仓基础架构的一个基本的演进方向。传统数据仓库是基于物理服务器或云上托管服务器的模式。而云原生的状况下能够更多去应用云的基础服务,包括存储服务,网络服务以及更多的监控服务。这就意味着在云上用原生服务能够得到云的自服务、弹性等能力,云数仓就能够更好的去集成更多的云上服务,包括如何把日志数据从各类数据源抽取到数据仓库中,也包括如何进行全链路的数据管理和机器学习等。因此云原生每每包含了如何构建和如何与云上服务原生的集成。
image.png

如图,云原生的状况下在底层充分利用了云的弹性计算,存储以及安全能力。在此之上能够看到咱们把全部云的复杂性都屏蔽掉,做为数据平台的用户,只需开通服务,经过web方式建立项目空间,五分钟开通一个数据仓库进行数据仓库后面模型的开发。大大简化了服务交付的周期以及数据仓库整个底层架构,技术架构构建过程。另外一方面是云原生数仓的扩展性,无论你提交了一个只须要1CU的做业仍是提交一个可能须要10000CU的做业,平台都会按你的须要调度资源来进行数据处理。因此云原生又给咱们带来近乎无限的扩展性。

湖仓一体 — 数仓数据架构的演进方向

讲到湖仓一体,先来看湖仓一体背后的缘由。不得不说到今天为止数据仓库仍然是企业管理数据最优的解决方案。各个企业大都有本身的数据仓库,只不过多是基于不一样的技术形态构建的数据仓库。在处理策略,对语义的支持上,对场景的优化上以及工程经验上,数据仓库是目前沉淀下来的一个最优的方案。在此之上,企业数据量愈来愈大,须要更灵活更敏捷的数据探索能力。同时,对未知数据存在先存储下来再进一步探索的诉求。由此,企业在架构上须要融合数据分析的最优化和可探索两个方面的优点,从处理策略到语义支持,以及使用案例上,数据仓库和数据湖分别带给企业不一样的优点。数据仓库在易管理,数据质量高,而数据湖在可探索,灵活性强方面为咱们带来优点。咱们要思考和讨论如何将两种方式结合起来共用,这就是提出“湖仓一体”的背景。
image.png

在MaxCompute以数据仓库为主的场景下,将数据仓库对数据管理的最优工程经验,管理经验和数据湖对数据管理的灵活性,数据处理的灵活性更好的结合在一块儿, 2019年咱们在全球率先提出了“湖仓一体”的全新数据管理架构。基于MaxCompute数据仓库来提供安全可靠的,结构化的数据管理方式,以及在此之上由DataWorks提供数据血缘,数据地图和数据治理等能力。这些能力如何延伸到数据湖中?今天咱们可见的数据湖包括基于云上的对象存储OSS,也包含企业中基于Hadoop HDFS的数据湖,对于这两类数据湖如何基于已有的灵活性可以得到更容易探索能力,能提高它们得数据处理性能,管理能力和安全性?

咱们所作的就是把数据仓库和数据湖二者打通,经过数据湖构建DLF,发现数据湖的元数据,进行结构化的统一管理,融合湖的灵活和便捷优点。这就是以仓为中心的湖仓一体新型数据管理的架构,数据仓库在企业数据的管理方式上往前又推动了一步。
image.png

离线实时一体 — 数仓数据分析的演进方向

在企业的数据仓库中,经过SLS、Kafka等订阅的方式进行数据采集,一般有三种路径。第一种多是将一部分数据归档在数据仓库中,而后进行全量的分析。第二种是进行实时的查询分析,好比风控场景下查一个电话号码过去三年的通话记录,要立刻查出来,就须要进行实时的链接分析。第三种是进行一些关联的多维度查询,对这些实时数据等进行关联的基础上,后面再来进行批量的处理,实时处理以及点查。实时数据的获取,计算以及应用这三方面,构成了整个数仓由离线向实时发展的三个核心含义。这里最核心的就是计算。计算的本质无外乎两个,一个是主动计算,另外一个是被动计算。离线计算每每是被动计算,须要数仓工程师经过定义任务来调度做业,才能计算出新的结果。在实时离线一体化中,除了被动计算,还要有主动计算能力。当数据流入后,不作人工干预,任何做业的插入和重启都能自动算出新的结果或中间结果。参与实时计算就最大程度的增长了主动计算的过程,而主动的结果带给咱们的好处就是无需从新调度任何做业就能拿到想要的结果数据。
image.png

在离线和实时一体的状况下虽然能够解决业务上的一些问题,但架构会很是复杂。因此阿里云提出离线实时一体化的数仓架构。简化是说咱们只须要核心的几个产品,就能够实现离线和实时一体化的架构。数据源包括了交易数据以及各个服务器生成的人的行为数据和物的行为数据,经过日志服务,按期归档到Hologres,以后,实时数仓加上流计算来进行实时计算,而后在下面是全量的数仓,整个完成了主动计算、被动计算和数据的实时获取。结果数据能够不用作任何搬迁,直接经过Hologres来作实时分析。将实时的数据获取,实时的数据计算和实时的数据分析服务三者打通为一体,架构上作了最大程度的简化,这就是今天所说的离线实时一体化的云数据仓库。

SaaS模式 — 数仓服务模式的演进方向

基于数仓基础架构、数据管理架构、数据分析架构的演进,这些产品的服务是如何被交付的呢?那就是经过SaaS化的方式向客户来交付数据仓库,能够最简化的去使用数据仓库的服务。
image.png

数据仓库的构成有几种方式,第一种是说基于物理服务器自建数据仓库,这是你们最为熟悉的方式。第二种是在云上基于Hadoop,也能够基于各类MPP的数据库去构建和搭建半托管的云上数据仓库。第三种和第四种就属于比较深的云原生的形式,第三种是典型Snowflake的方式,这种方式下云基础服务其实并不会暴露给数据仓库的管理者,因此咱们把它叫作嵌入式的,将IaaS这一层嵌入到PaaS层中,但最终数据仓库是经过SaaS的彻底web的方式暴露出来的。2021年全球Forrester评测中有13家厂商参与了评估,其中以SaaS模式交付数据仓库服务的只有三家,分别是谷歌的BigQuery,Snowflake和阿里云MaxCompute。
image.png

能够看到经过云计算的数据仓库服务,从自建到云原生,帮咱们最大化的下降了数据仓库的管理复杂度,整个架构少了不少层,无需管理集群和软件,经过服务化的方式达到免运维,将底层的全部这些需管理的内容去掉,后台升级是由云厂商来提供服务的,只须要管理本身的数据和数据模型,经过web方式来使用数据仓库服务。在数据仓库里存储的数据与云存储同样,按存储量付费。计算也是同样的,不计算不花钱。充分体现了SaaS化的优点。同时,在匹配业务需求上具有很是强的弹性能力,咱们有不少客户平常只须要一万核的算力,在双十一当天须要三万核的算力。在这种SaaS模式的服务下,用户在彻底无感知的状况下咱们就能够保证充沛的弹性能力去知足数据仓库的各类工做需求了。
image.png

综上,数据仓库从1990年的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库的一路演进,基础架构的云原生,数据架构的湖仓一体,数据分析的离线实时一体化以及数仓服务模式的SaaS化,是最为主要的四个演进的方向和特征。 阿里云正在经过全新数据仓库架构给企业带来具有更优体验的数据管理的方式。

原文连接

本文为阿里云原创内容,未经容许不得转载。

相关文章
相关标签/搜索