【读书笔记】《大数据大创新:阿里巴巴云上数据中台之道》

今天开始阅读《大数据大创新:阿里巴巴云上数据中台之道》,对数据中台的建设很是感兴趣,也是我往后的求职方向,冲鸭!web

大数据发展价值数据库

  • 数据量飞速增加

从TB到PB用了20年,从PB跃升至ZB仅用了不到10年,IDC等权威机构的预算,全球数据量以每一年40%左右的速度持续增加,2020年全球数据量将达到40ZB。
用“4V”来总结大数据的核心特征——volumn(大量),Variety(多样),velocity(快速),value(价值密度低)
数据量在增加,数据结构的复杂性也在增加,伴随着大数据概念的发展,数据领域的研究在广度和深度上获得了拓展:从早期与硬件制造相关的数据中心备份及网络管理等单一的领域分类,拓展到现在平台化及场景化的数据仓库、元数据管理、主数据管理、数据质量、数据泄露、数据科学等多元的领域分类。安全

云上中台建设网络

1.云上数据中台的业务模式数据结构

数据中台处于计算后台和业务前台之间,其内核能力是以业务视角而非技术视角智能化构建数据、管理数据资产,并提供数据调用、数据监控、数据分析和数据展现等多种服务。
承技术后台,启业务前台。基于数据,深刻业务。
主要方法论:OneData、OneEntity、OneService
OneData:致力于实现数据的标准和统一,让数据成为资本而非成本
OneEntity:致力于实现实体统一,让数据融通而非以孤岛的形式存在
OneService:致力于实现数据服务统一,让数据复用而不是复制架构

2.阿里数据中台建设过程运维

问题所在:svg

(1)业务上的困扰
从数据标准方面引起的数据信任问题
从数据服务方面引起的数据及时性和有效性问题
例如,UV(Unique Visitor)这个经常使用指标由于业务规划、商业要求等不一样会产生多种不一样的统计规则。如淘系业务,在PC端UV的统计规则有三套,即三个同名可是不一样计算逻辑的UV,无线端的UC又不一样于PC,会衍生出多个UV。除了UV,还有GMV、转换率等指标,这些指标的不统一会给业务带来困扰,不合理的消耗其背后的数据资源。
数据部门光是提供业务支持已经够呛了,致使缺少全局的规划,服务的效果不足,从而致使及时性和有效性不强。工具

(2)技术上的不合理消耗
阿里巴巴从电商起步,自己就是海量数据的玩家。若是缺少统一高效的管理,将浪费大量的技术资源。
所以有必定抽象的数据仓库中间层模型能环节业务变化对数据模型的冲击;数据规范定义能有效避免数据的重复计算和存储,下降甚至消除业务人员的困惑;合理的数据生命周期管理能避免数据计算特别是数据存储的浪费。大数据

实际落地:

(1)第一阶段,完成全局架构

在这里插入图片描述

(2)第二阶段,抓关键业务的数据建设

方向1:7个离线数据公共层(ODS数据基础层,DWD+DWS数据中间层)建设子项目,包括淘系数据基础层治理,日志数据公共层建设,小微金服依赖淘系数据重构,聚划算数据中间层建设,搜索数据中间层建设,航旅数据中间层建设以及1688数据公共层与数据应用建设。
方向2:3个离线数据公共层面向应用的建设(ADS数据应用层+报表+产品)子项目,第一个方向专一于建设离线数据公共层,而应用才是直接目的。
方向3:1个数据技术领域专项
(数据模型,存储治理,数据质量,安全权限,平台运维和研发工具6大数据技术领域)
方向4:1个技术探索专项(实时数据公共层建设专项)

(3)第三阶段,全面铺开
计划包括:元数据打通,天猫数据中间层建设,数据资产管理平台,基于元数据的数据建模工具,OneData体系全流程工具化,数据公共层运营

3.从零散的数据到统一的数据

一开始是烟囱式的开发,即数据中心基于单个项目建设,特色是烟囱式的垂直体系结构,每个系统都有本身的存储和IT设备,以及独立的管理工具和数据库,不一样的系统不能共享资源,不能交互访问,造成了资源孤岛和信息孤岛,致使出现了效率低和技术资源的浪费。

例如常见的GMV指标就会存在多种指标和定义,例如“最近1天的下单金额”,“最近1天的支付金额”,“最近7天的支付金额”,“最近30天支付宝确认收货额”等,业务人员看到的都是GMV,可是因为是不一样的数据团队的产出,因此定义的含义也是不同的。且不一样的ETL开发团队因为信息不顺畅为保证数据的真实性更愿意“相信本身”,由此都基于ODS基础数据层的数据去作从零向上开始的烟囱式开发。
形成业务痛点和技术痛点的缘由,归纳起来就是“烟囱式”开发形成的数据不标准和不规范。因此云上数据中台的切入点就是以“阿里巴巴数据公共层建设”消除因“烟囱式”开发给业务带来的困扰和形成的技术上的浪费。

(1)数据仓库规划和数据规范定义
OneData方法论是解决上述问题的指导思想。如何实现?
首先,咱们须要基于业务和数据的理解,对数据进行基于业务自己可是超越和脱离业务需求限制的抽象。即抽象出业务板块,如“电商”,“金融”,“云业务”等,在业务模块之下再抽象出数据域,好比电商下会有“交易”,“会员”,“商品”,“浏览”,“搜索”,“广告”,“公共”等不以团队为中心转移的数据域,再在数据域下抽象出业务过程,如对于“交易”数据域,可抽象出“加入购物车”,“下单”,“支付”,“确认收货”,“申请退款”等业务过程和“订单”维度,“买家”维度和“卖家”维度等。
其次,在抽象出的业务流程过程和维度进一步定义,包括定义原子指标,定义业务限定,定义计算周期,定义计算粒度。
在这里插入图片描述
最后,基于原子指标,业务限定,计算周期,计算粒度能够结构化定义出派生指标,如“最近30每天猫支付宝支付订单金额”,若是须要““最近7每天猫支付宝支付订单金额”只须要改下计算周期即可以快读定义。

(2)数据模型设计 第一步:统一ODS数据基础层 第二步:基于业务应用或者需求来源端抽象数据域治理,特别关注核心业务模型,经过DWD明细数据中间层处理预join处理、DWS汇总数据中间层沉淀经常使用统计维度和复用性高的指标,再结合数据技术自己的热度分析和数据应用预估,丰富和完善数据中间层数据建设 第三步:从数据层向上整合ADS数据应用层数据