详解阿里云数据中台,一篇文章全面了解大数据“网红”

做者:谭虎、陈晓勇 [ 更多内容详见数据中台官网 https://dp.alibaba.com ]数据库

一直想写一篇关于数据中台正面文章,如今有闲时作些总结,想充分诠释一下DT内部人如何看待数据中台。跨域

数据中台的概念是最先由阿里巴巴首次提出,是为了应对内部众多业务部门变幻无穷的数据需求和高速时效性的要求而成长起来的,它既要知足业务部门平常性的多个业务前台的数据需求,又要知足像双十一,六一八这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂活动场景业务系统的解耦问题,而在技术、组织架构等方面采起的一些变革。架构

数据中台的定义并发

阿里巴巴数据中台是阿里云上实现数据智能的最佳实践,它是由数据中台方法论+组织+工具所组成,数据中台方法论采用实现企业数据的全局规划设计,经过前期的设计造成统一的数据标准、计算口径,统一保障数据质量,面向数据分析场景构建数据模型,让通用计算和数据能沉淀并能复用,提高计算效能;数据中台的建设实施必须有能与之配合的组织,不只仅相应岗位的人员要配备齐全,并且组织架构建设也须要对应,有一个数据技术部门统筹企业的数字化转型,数据赋能业务中造成业务模式,在推动数字化转型中实现价值;数据中台由一系列的工具和产品组成,阿里云数据中台以智能数据构建与管理Dataphin产品、商业智能QuickBI工具和企业参谋产品为主体等一系列工具组成。框架

阿里云在过去几年中通过数十个实际项目沉淀造成实施标准化流程和方法论。阿里云OneData数据中台解决方案基于大数据存储和计算平台为载体,以OneModel统一数据构建及管理方法论为主干,OneID核心商业要素资产化为核心,实现全域连接、标签萃取、立体画像,以数据资产管理为皮,数据应用服务为枝叶的松耦性总体解决方案。其数据服务理念根植于心,强调业务模式,在推动数字化转型中实现价值。分布式

数据中台的概念来自于阿里巴巴“大中台,小前台”业务战略下的数据化实践,它是关于“数据价值化和数据资产化”的一整套解决方案,内容包括数据中台方法论,组织,数据产品三个方面。高并发

数据中台建设成果主要体如今两方面:一个是数据的技术能力,另外一个是数据的资产。今天阿里的各个业务都在共享同一套数据技术和资产。阿里内部为这个统一化的数据体系命名为“OneData”。Onedata体系包括OneModel,OneID,OneService3个方面,在OneData体系之下,不断扩大的业务版图内的各类业务数据,都将按统一的方式接入中台系统,以后经过统一化的数据服务反哺业务。工具

以下图所示:oop

数据中台顶层设计大数据

数据中台定位于计算后台和业务前台之间,其关键职能与核心价值是大数据以业务视角而非纯技术视角出发,智能化构建数据、管理数据资产与提供数据调用、数据监控、数据分析与数据展示等多种服务。承技术启业务,是建设智能数据和催生数据智能的引擎;而以数据中台内核价值为中段的数据中台业务模式不是纯数据、不是纯技术、也不是纯业务,它同时关注着与大数据能力相关的上下游,以大数据为中轴线,基于技术而又深刻业务,它以数据产品+数据技术+方法论+场景实现的综合性输出,同时为智能化数据、技术极致提高和数据智能化业务负责。

一方面专一于从业务视角,建设标准统1、融会贯通、资产化、服务化、闭环自优化的数据中台智能数据体系,同时极致化追求技术上的降本提效。另外一方面,致力于智能数据与业务场景深度融合的业务数据化与数据业务化中的各种智能化价值创新。

数据中台与传统数据仓库差别

数据仓库已经经历了40多年的发展,普遍应用于大型商业企业,帮助业务人员和高层人员作分析和决策,它起源于决策支持系统(decision support system),其展示形式更多以报表方式实现。所以数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合。

传统的企业级数仓仍是以TD,Oracle,IBM/DB2等传统数据库为主, 因为受限于数据的处理能力,不多有EDW的数据容量超过1TB,所以不能对基础数据进行跨域的处理(缘由是RMDBS对大数据量的关联join处理耗时很是长),所以要对新的指标分析的时候须要从基础数据从新生成汇总表,耗时耗力,使用方法上没法实现跨数据集或数据域的处理。新一代的数据仓库采用分布式架构,通常基于MPP数据库或大数据平台实现数据分析,所以传统的数据仓库具备如下几个特色:

业务主题性:传统的数仓要求解决服务问题,好比对一个生产型企业来讲公司的主题域是产品、订单、销售商、材料等,要解决应用问题多是库存、销售、销售商等。其有业务是面向主题的。

系统集成性:在传统数据仓库中,集成是最重要的,因为计算和存储的成本缘由,其数据须要从不一样的数据源抽取过来并集中,其数据的冗余度须要尽量的下降,所以数据进入数据仓库中须要进行转化、格式化、从新排列和汇总等操做,其全部数据具备单一物理特性,都是结构化方式存在。在系统架构方面,也是以集中式存储和计算方式存在,新一代的数仓采用分布式计算,但软件产品采用集中部署方式存在。

非易失性:数仓系统会记录全部记录,与业务系统相比,它不会对记录进行变化操做(update和delete),它会保留全部记录的变化,但受限于成本和计算能力考虑,数仓不会记录全量明细数据,特别是日志数据,所以大部分数仓平台的数据容量在TB级别。

时间变化性:数据仓库中每一个数据单元只是在某一时间是准确的,所以数据单元的准确性与时间相关,数据仓库中的数据时间范围5-10年。

系统一体化: 传统数仓以系统总体设计为特性,软件平台围绕着数据库或计算平台以整套服务为主,结合度缜密,对外服务也较单一。

传统的数仓采用集

中式数据库做为数据和计算平台,近10年来,新兴企业采用分布式数据库和大数据技术实现OLAP类数仓建设,但其本质仍是基于一个总体来考虑的。

在系统和服务上数据中台与传数仓有不少明显的区别,首先表如今服务对象方面,传统的数仓只是知足领导数据决策的须要,所以更多的体如今报表输出,使用者以小部分的业务人员和决策层为主,新需求的开发周期以月甚至到年为计。而数据中台因为起家于互联网企业,其使用对象扩大到一线服务人员和商家企业,其业务需求更繁杂,很难用一套报表系统知足需求,所以催生出一个生态的数据服务。

其次是体系架构上,数据中台是由多系统组成,除了计算平台外,其方案由多个分布式服务系统提供,知足不一样业务需求和高并发和系统自动扩容需求,除了大数据存储和计算平台外,还包含数仓建设、工做台开发IDE、任务调度、数据同步服务、对外统一数据服务、资产管理系统、实时流计算平台和开发平台、oneID计算和查询模块,敏捷BI报表开发等多个组件,经过多个维度组件组成一整套方案。

再则,在服务表现形式上数据中台体现的更多样化,数据中台不只能提供报表基础服务功能,并且为了知足各个业务部门不一样需求,会提供领导决策系统、行业分析、业务洞察、业务重塑,自助查询等多个功能,知足从领导层、PD、业务人员、开发人员等各个层级的需求。

在继承性方面,数据中台采用传统的数仓Kimball维度建模法,按照事实表,维表来构建数据中台的数据模型。

数据中台与数据湖区别

业界近3年对datalake说的比较多,是结合近10年来大数据理念兴起的,首次由Dan Woods在2011年7月福布斯上的“Big Data Requires a Big, New Architecture”中提出,它提出CIO们应该考虑数据湖(“Data lake”)这个思惟方式来替代数据仓库(“data warehouse”)的思惟,它的架构和理念是把原先不存储的基础数据也存储起来,汇总各个数据源的数据方便之后的数据分析和查询,所以数据湖是数据的汇集、加工为目的数据资源池,可是数据湖只是解决了汇集问题,在数据加工方面因为不可控制的需求变得异常繁重,因为数据的繁杂和混乱引入数据治理让数据的加工更是举步维艰。

图:数据湖采集的数据类型

传统上数据湖中的数据会存储原始数据,量大而且非结构化和半结构化的数据较多,须要有一个低成本分布式存储和计算架构来承载这些数据,属于ODS层,缺少数据主题和加工能力,所以近期对数据湖上的数据治理项目和应用愈来愈多。

数据湖聚集了原始ODS数据,解决了传统数仓基础数据缺少的问题,做为企业数仓平台的补充,有其重要的意义,但数据湖的做用在于聚集企业的各个数据源,有一个存放和分析之地,在规划中没有一个总体的数据资产规划和管理职能,这会致使其功能薄弱性,不能承担总体的数据处理和管理之重,实际在一些大型企业,使用数据湖其数据陷阱就会立刻出现,业务人员的需求须要DBA或IT人员通过繁杂的处理步骤才能实现达到业务人员的数据分析目的,其会耗费开发人员的时间耗以周计,缘由之一是数据湖没有一个数据构建和管理平台去管理和计算这些数据,所以不讲治理的杂乱无章的数据看似能提高数据获取,数据分析的效率,实际上并不能承担企业智能化的使命。

企业数据智能须要解决企业数据智能所面临的诸多问题,企业数据智能须要解决数据的快速计算和结果产出;须要对企业数据资产有总体规划和掌控;须要有一个好的方法论处理业务逻辑繁杂的统计;须要有一个好的构建和管理平台面向业务使用方和开发使用方...这些都是数据湖所不能解决的问题。

数据中台是由阿里巴巴在2015年在内部技术演进和组织优化中提出中台战略中提到的,数据湖自己的缺陷正是数据中台强项,两者能够起到方案补充的做用,在现有技术框架中数据中台能够基于Hadoop数据湖平台做为数据存储和计算载体,实现数据的加工和处理,数据中台更多实现数据的管理,强调利用数据的能力,强调数据开发和高效的使用,数据中台的数据资产管理能够对数据湖中的数据按照数据域方式进行管理并结合业务的逻辑实现整个数据模型的加工和开发。

数据中台与数据域相比,数据中台强调方法论,组织和工具的建设。很是强调数据赋能业务,衍生出不少的数据业务产品。好比在阿里面向商家的生意参谋,面向人物属性的标签服务、面向行业小二的行业洞察…这些都极大的扩展了数据价值,其次数据中台按分析的原子指标和派生指标方式作计算并存储在Maxcompute平台上,若有及时查询要求会同步分析结果数据给MPP或其余DB。这块在数据顶层设计,全域资产、统一技术、产品业务上与Datalke及EDW是不一样的。

现有大数据平台厂商和云服务厂商推崇数据湖有其商业目的,AWS认为“云数据湖表明将来,能从数据中挖掘出更多价值”。AWS对数据湖的理解是基于同一存储、对接各种引擎进行分析查询工做,所以推崇Amazon S3来构建数据湖;微软推崇“Azure Data lake”基于HDinsight(原先Hortonworks公司产品,现是Cloudera产品)上层使用hive,spark,U-SQL计算引擎实现计算和查询;华为推荐DAYU数据湖运营平台,强调统一管理和功能的丰富性。这些解决方案很是强调存储服务和想配套的硬件销售。

最后说到底都是企业提供数据计算、存储和应用的平台,最终各类平台的目的都是要更好地服务于业务。

数据中台所面临的调战

随着数据中台理念的普及,各行各业逐步接受了这个概念,不少厂商经过招投标采购、自身投入等各类方式建设了数据中台,但在建设和具体运营中发现了不少问题,诸如数据运营是否能产生效益,对业务是否有推进价值,取数是否快速敏捷等问题…

数据中台建设是一个徐徐渐进的建设过程,数据积累和分析维度都有一个数据和知识积累,认知的过程,和业务系统的“交钥匙”工程有本质不一样,营销,市场和供应链的数据是在不断变化中,营销活动,产品也在不断发展和更新中,所以,数据中台建设是一个不停迭代和发展的过程,须要持续投入是数据中台运营部门所面临的最大的挑战。

业务数据的分析需求会有很大变化,回顾互联网或传统产业的发展历程,在2007年iPhone智能手机以一个全新的形式推向市场前,传统的数据分析需求仍是停留在PC或线下数据的分析,而今天,几乎全部的分析维度几乎都是来自线上终端(手机)需求或由线上数据来推进线下运营的需求。而今天随着5G和AI技术的发展,愈来愈多的IOT设备产生的数据开始支撑着数据分析场景,好比商场、饭店已经开始使用摄像头等传感器来收集游客对商品或服务的喜爱,这些都触动对数据中台的分析需求,这2个小小例子说明数据中台的分析需求是在不断变化中,所以数据中台建设也须要持续迭代和发展,而不是自我运行的,这须要开发人员在不断迭代中找到事物发展的规律,总结造成数据服务应用,知足广泛化的业务需求。在GPS传感器集成到手机中前,人们没法获知运动中的人位置,经过定位传感器衍生出位置服务,好比大众点评中的餐饮家政等生活圈的服务,这些数据会催生出人新的位置标签,生活圈等指标数据,这些对业务运营有很是大的帮助,由于有了这个信息,你不会再给一个偶尔由于差旅去商家消费的顾客再发送促销信息,也不会给偶尔消费的人有促销广告,这会帮助你的营销更有针对性,更精准。

传统企业在数仓建设都有一个分析平台,固化了不少分析指标,这些分析指标天天发生一些变化,为决策层提供了决策支撑,但指标的更替和变化确以月和年计,这致使对新业务和事物的业务反馈不够及时,所以面对这一挑战须要有一个灵活的数据中台加工机制来知足这些需求。这首先须要有一个组织来支撑这个运营目标,使得运营和开发团队为这个目标达成这个目标,在阿里巴巴内部数据技术及产品部门就是这个组织的典型表明,经过组织机制来推进运营,知足业务部门不间断的数据需求,同时基于需求开创了一套方法论并开发了一系列的工具帮助业务部门达成这一业务目标。这须要数据中台的开发团队开发一套方便,便捷的自助取数工具来知足业务部门的需求。

诚然,在数据建设中还会碰到一些其余潜在问题,诸如需求不明确,分析场景设计不合理,数据指标和分析思路不够能解决用户痛点等状况,但这些均可以经过增长投入,特别是增强咨询和调研的力度来解决这些问题。

尾声 [ 更多内容详见数据中台官网https://dp.alibaba.com ]

数据中台是不少传统企业作数字化转型的重点投入,这须要从战略、方法论、工具、执行和组织层面作系统规划、有序执行,阿里过去多年经历了内部多年的建设沉淀出多个工具和数据产品,通过央视网、海底捞、飞鹤、联华商超、南航等多个传统行业落地项目的淬炼得出实施的方法论,这些转型先锋为中国企业的数字化转型具备借鉴意义。

阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每一个企业建设本身的数据中台,进而共同实现新时代下的智能商业!

阿里巴巴数据中台解决方案,核心产品:

· Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;

· Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展示能力;

· Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,链接阿里巴巴商业,实现用户增加。

欢迎志同道合者一块儿成长!

做者:伴弋

原文连接:https://yq.aliyun.com/articles/720814?utm_content=g_1000083375

本文为云栖社区原创内容,未经容许不得转载。

相关文章
相关标签/搜索