来自专辑
数据中台面试
关注免费获取资料
一、回复“交个朋友”,进入<数据交流群>
二、回复“数据中台”,获取<大厂数据中台资料>
三、回复“数据产品”,获取<大厂数据产品面试题>算法
本篇主要写建设数据中台的建设路径,具体的项目实施计划,以及实施过程当中的注意点。安全
整个过程包含:
1、现状梳理,明确当前主要问题
2、勾勒自下而上的解决方案
3、制定项目计划
4、项目人员规划
5、项目成果架构
每一块业务都有对应的ETL开发团队为其提供数据支持,每一个团队按本身的思路建设一套数据体系。app
指标定义阶段:字段命名不规范、口径不统1、算法不一致运维
指标规划阶段:数据部门疲于对业务支持、缺少全局规划,产品化能力不足ide
指标开发阶段:烟囱式数据开发,数据重复,不可信工具
指标维护阶段:复杂关系引用致使指标下线牵扯面大学习
今后可看出,公司业务线较为单一的状况下,不须要盲目上中台服务;数据中台每每创建在解决必定交叉性数据问题的基础上。设计
统一数据源:统一ODS数据基础层,并有一个团队负责和管控,其余团队无权复制数据基础层中的数据
进行数据的统一规划:面向业务提供服务前,由数据团队负责从业务中抽象源于业务而又不一样于业务的数据域,再主导统一建设数据中间层。
建设oneservice服务体系:将openAPI升级为缓解业务变化对数据模型冲击的方法论、数据产品,提供统一公用服务的同事,兼容面向个性化应用的服务。
梳理清楚现状以后,明确问题所在,明确解决方案,接下来须要作具体的实施。
第一步:肯定并坚决项目目标
在不影响业务发展的同时,在业务上推动数据价值化,降本提效为基础目标,创造业务价值。
第二步:肯定指导性的方法论
OneData:公共层建设核心方法论,知道构建与管理数据。
OneService:7x24h无间断、无差别服务
OneEntity:链接孤岛数据,实现数据链接后萃取各种标签进行用户画像
其中OneEntity体系包含以下:
1)OneEntity统一实体:全域关系打通设想ID-mapping
2)GProfile全域标签:四维标签体系探索,包含天然属性、社会属性、兴趣偏好、行业消费偏好...
3)GRelation全域关系:设想以全域Entity关系打通为基础的等关系图谱
4)GBehavior全域行为:以全域Entity关系聚拢造成全域行为中心
第三步:肯定三步走的项目执行计划
1.全面接管ODS数据基础层
全面接管ODS数据基础层,是一件十分吃力不讨好的事情,事项十分繁琐。但接管了ODS数据基础层,则是从数据源头上作了一层把关控制,防止重复建设数据体系的现象。
建设离线数ODS数据基础层和实时ODS数据基础层。
2.升级OneData体系
将OneData体系升级到OneDataII,比较关键的是制定关于数据规范定义、数据模型设计、ETL开发规范3大环节的方法大纲。
3.完成业务数据架构
从源头控制住全部数据,而且也肯定了将来如何建设和管理数据的方法论,那接下来如何设计具备前瞻性、可持续性、可扩展性的直接面向业务层的服务呢?
须要对业务数据进行盘点、分析和认知。可是,若是对全部业务都同时进行盘点,不只耗时长且难以深刻,不具有可行性。
因而,能够按照“二八原则”,先对关键业务及其关键数据进行第一批盘点,并从业务视角和技术视角同时进行盘点。
例如,对淘系数据的4100多张报表中的2万多个指标盘点,通过多轮筛选,最终保留6600多个指标,便可保障当时的业务需求,其中1.4万个指标,一部分直接下线,一部分在后续数据公共层建成并切换下线。
在构建好ODS层以后,须要进一步丰富和完善DWD、DWS、ADS数据应用层。总共包含4个方向。
1.离线数据公共层建设(ODS、DWD、DWS)
最开始建设淘系数据基础层治理项目,接盘ODS层以后,进行深度数据治理。,下降存储和计算资源的消耗,提高数据监控管理力度。
2.离线数据应用层建设(ADS、报表)
一是面向应用服务的数据宽表的建设:基于数据公共层,向各个业务部门提供方便、快捷的数据服务。
二是给领导们提供关键数据:建设面向COO领导层的重点关注的经营指标。
三是建设各业务线、行业的数据。
3.数据存储的专项治理
4.实时数据公共层建设
(下一篇文章中进行展开)
第四步:明确处理好关键矛盾
第五步:紧盯业务并超越业务满意度
一个月内完成第一阶段的全局架构工做,并快速启动第二阶段。第二阶段第一期切入关键应用,并在2个月内完成数据公共层初始化;第二阶段二期在迁移存量应用的同时支持新需求。
把服务双十一和双十二做为阶段性业务目标,让业务人员看到实际效果,技术人员感觉到技术进步,数据公共层建设的推动就会由难到易,由慢到快。
第六步:业务和技术,两手都要抓,两手都要硬
数据技术是数据公共层建设的内核力量,包含数据模型、存储治理、数据质量、安全权限、平台运维、研发工具等。
第七步:以产品化思惟推动项目
将数据公共层建设视为一个须要长期运营的产品。
第八步:关注预警和增强风险管理
提早进行风险规划,制定保障措施,如:
风险描述:数据规范定义和数据模型设计体系化,须要专业人才和工具保障。
保障措施:
1)制定规则及工做流,完善onedata体系数据规范定义,同时以工具化保障onedata体系工做流
2)数据产品经理和数据模型师培养,输出多名具备建模思想和建模能力、同时熟悉业务的人员
3)公共层能够稳定支持业务后,按期安排数据模型师和ETL研发人员深刻业务以更新对源系统和业务的认知
如果须要最终完美的完成项目计划,缺少其余业务部门或技术部门的配合是万万不可的,由于在实际的项目进程中,须要一个实体团队来负责数据公共层建设,以及协同若干个业务线的技术团队做为虚线加入项目组。
在最初建设时,数据团队只有50我的,而要实现如此庞大的计划,须要更多人员的支持。在建设前期由兼职的18罗汉进行现状梳理,并完成全局架构。
随着项目的兴起,领导团队对项目越发看重,于是获得了更多人员资源上的支持。
降本:数据计算成本和存储成本下降,以及因重复建设而形成的人力成本的下降等。
2015年,批量数据计算总时长减小约50%,解约计算成本近亿元;批量数据下线,解约存储空间上百PB,节约存储成本上亿元。
提效:让各业务部门获得了统1、标准的数据服务,而且响应速度很快,提高了使用数据的效率。
业务上,数据价值化。
如上是阿里数据中台第一阶段、第二阶段的建设过程,接下来一篇会继续解析第三阶段:全面铺开的数据中台建设过程。
一个数据人的自留地是一个助力数据人成长的你们庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提高技能。扫码关注我,带你探索数据的神奇奥秘