数据中台最先是阿里提出的,但真正火起来是 2018 年,咱们能感觉到行业文章谈论数据中台的愈来愈多。大量的互联网、非互联网公司都开始建设数据中台。为何不少公司开始建设数据中台?尽管数据中台的文章不少,可是一千人眼里有一千个数据中台,到底什么是数据中台?数据中台包含什么?android
2017 年开始,当网易严选有了必定量的数据,咱们就开始规划建设咱们的数据中台,目前咱们已经完成了数据中台体系的搭建,我将根据咱们建设数据中台的经验和方法论试图解答上面这些问题。ios
2018 年开始,朋友圈里讲数据中台的文章开始逐渐变多,固然拿着手机看世界并不必定看到真实的世界。我也跟各个行业的一些大公司的 CIO 交流,发现不少行业的大公司都开始组建大数据团队,建设数据中台。结合文章和交流获取的信息,我切身感觉到宏观经济对技术的影响。2018 年开始经济下行,生意很差作了,粗放的经营已经不行了,愈来愈多的企业想经过数据驱动来进行精细化的运营和数据化转型。web
如上图所示,企业须要数字化转型,须要更多的触点去跟本身的用户 / 客户创建联系,不少企业就须要作本身的公众号、小程序 (各家的小程序) 甚至 app。咱们但愿用户更容易找到咱们的商品 / 服务,咱们就须要搜索。咱们但愿用户更多的浏览 / 使用咱们的商品 / 服务就须要推荐。咱们维护用户 / 客户的生命周期,根据生命周期采起不一样的营销动做,就须要 CRM。咱们须要拉来更多的新用户,就须要投放广告,为了更好的投放效果,咱们须要建设咱们的 DMP。当咱们生意作大,咱们须要对抗黑产 (羊毛党),让咱们的优惠能让真正的用户享受,咱们须要风控。这一切都须要底层大数据的支持。小程序
企业须要精细化运营,就须要不断的提高运营的频次 (以下图所示) 和粒度。咱们须要把运营的节奏提高到周级、天级甚至实时。咱们随时随地了解咱们企业经营情况,须要不断的更精细 (细粒度) 的分析咱们的业务,快速作出业务决策。咱们就须要可以快速地构建大量的 BI 报表,在一些重要的节点 (大促) 时,甚至须要盯着数据大屏。若是咱们有能力,还能够建设场景化的数据产品来支持业务的决策。这一切都须要底层大数据的支持。缓存
如何快速地利用底层大数据的支持,让咱们的数据化转型、精细化运营可以高频的迭代,这就须要咱们的数据中台提供强有力的支持。架构
这里也提醒一点,当咱们须要大规模的数据应用时 (搜索 / 推荐 /BI 报表…),咱们才须要构建数据中台。由于建设数据中台的投入大。打个比方,当我一家人要吃饭,我本身买菜,在本身的厨房用普通的厨具本身作就行了,若是是富士康,几万几十万人吃饭,就须要建食材的加工配送中心 (类比数据中台)。本质上是“需求规模量级的变化,致使解决方案的质变”。因此咱们看到的,基本是大公司在建设数据中台。尽管大家可能如今不适合建设数据中台,但数据中台的思想你们均可以借鉴。app
小结一下,当企业须要数据化转型、精细化运营,进而产生大规模数据应用需求的时候,就须要建设数据中台。工具
这是一个千人千面的问题。咱们的定义是“数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合”。由于规范最终是在系统和服务中落地的,因此定义中就没有包含规范部分。
数据中台的核心职责是高效地赋能数据前台为业务提供价值。要想理解数据中台先要理解数据前台,上文说到的搜索、推荐、BI 报表、数据大屏等都属于数据前台。咱们来看下面网易严选数据体系的图就更清楚数据中台的定位了。性能
数据中台的下层是数据平台,数据平台主要解决跟业务无关的问题,主要是大数据的存储和计算问题。测试
数据中台的上层就是数据前台,主要包括 BI 报表、数据产品和业务系统。数据中台首先赋能分析师经过 BI 报表的形式来驱动业务精细化运营。以下图所示,基于数仓里已经半加工好的数据,分析师使用严选有数敏捷 BI 平台能够快速的根据业务需求进行数据可视化和数据分析。严选有数如今每周的 UV 超过 800,天天报表浏览次数超过 12w,目前的图表数超过 7W。对于一个事业部级的 BI 平台,应该算是一个很是好的成绩。这里特别感谢下咱们的分析师团队,她们的辛勤工做才会有这样的成绩。
数据中台还会赋能业务系统开发经过统一查询服务 (主要是统一查询服务和标签服务) 来辅助业务过程当中的决策。基于数仓里面加工好的数据模型,业务系统开发人员使用统一查询服务获取到的模型数据在业务系统中增长辅助决策功能。好比供应商系统须要对供应商进行评级,供应商评级须要供应商的商品销售数据、评论数据、退货数据、质量数据,供应商采购的交期数据等等。数仓会根据这些数据加工模型,供应商系统能够经过统一查询获取模型在供应商系统中使用。在严选,统一查询服务已经接入了 67 个应用、670 个模型、天天有 300w 的调用。
咱们本身作的数据产品(以下图所示),基本会用到咱们数据中台全部的能力支持,包括统一查询服务、标签服务、指标监控服务、数据产出服务等数据服务,也会使用严选有数建立 BI 报表挂载到数据产品中。
从上文的图中,咱们已经初步了解了数据中台包含了哪些系统和服务。归纳来讲,数据中台包含数仓体系、数据服务集和 BI 平台。
数仓体系是数据中台的核心,数据是新能源,是生产资料。数仓体系包含数仓和一系列的管理系统,用来管理数据,保证数据的完整、一致和准确。数仓体系的构成和关系,以下图所示。数仓是数仓体系的核心,也是整个中台的核心。数仓的开发和存储,主要依赖网易猛犸数据平台 (但愿详细了解的,能够搜索网易猛犸)。
夸父 - 埋点管理系统和精卫 - 数据填报系统从供应侧保障数据的完整性和质量。埋点数据因为来源广 (web 端、ios、android、小程序等)、链路长、格式 (日志的 scheme 约束) 等问题,一直是数据质量的重灾区。夸父 - 埋点管理系统提供了埋点的管理、埋点流程协同和埋点测试,提供了埋点日志的 scheme,保障了埋点数据质量。精卫 - 数据填报系统提供数据导入数仓及导入时的验证功能,提高数据的完整性。整个电商的业务过程很是多,全部业务过程都线上化的过程很是漫长。当咱们下游的数据应用须要某个业务过程的数据,而这个业务过程尚未线上化时,就能够经过精卫 - 数据填报系统导入数据到数仓,下游就可使用这份数据。
仓颉 - 指标管理系统和燧人 - 指标地图是从需求侧提高数据 (指标) 的一致性。仓颉 - 指标管理系统顾名思义是管理指标定义,在提供指标统一管理的同时,提供了指标定义规范的约束。数据开发能够根据指标定义里的指标口径来进行指标开发。燧人 - 指标地图是提供给业务方查看当前的指标分类与指标定义。
数仓开发自己要解决的核心问题是质量和效率 (全部开发也都须要解决),不管是质量和效率都须要好的架构设计。北斗 - 数仓设计管理系统就是来完成数仓设计。数仓的开发本来老是很是的经验化,不少知识都是存在数据开发的脑子里。咱们经过北斗 - 数仓设计管理系统来推行数仓先设计再开发,经过北斗 - 数仓设计管理系统将数仓开发的经验知识化、标准化、工具化。数据质量中心 (以下图所示) 提供全链路的数据保障体系,提供任务监控、数据监控、应用监控、影响范围评估和恢复的支撑。
数据服务主要是数据场景下的解决方案的沉淀。数据服务集极大的加速了数据应用开发效率。核心的数据服务是统一查询服务和标签服务,提供指标模型和标签模型对数据应用系统 (业务系统和数据产品) 的统一配送。统一查询服务核心提供表转接口和数据网关的功能。数仓管理的是数据模型表,经过统一查询,数据应用系统就能够经过接口的形式来访问数据模型表。统一查询服务是数据体系和数据应用系统之间的总网关,须要提供模型级限流、熔断等网关功能。
BI 平台咱们用的是严选有数,也就是在网易有数在严选的版本。网易有数是一款敏捷 BI 平台,在设计上经过以终为始的设计理念和类 PPT 操做模式,在保障灵活性的基础上,提供了极大的操做便利。想进一步了解的,能够搜索网易有数。
在性能方面,咱们结合数据产出服务作的基于数据产出的缓存策略极大地提高了报表的性能。图表首访缓存命中率基本稳定在 100%,总体缓存命中率超过 80%。
数据中台的内容很是长,本文很是归纳的从严选实践介绍了数据中台。总结一下:当企业须要数据化转型、精细化运营,进而产生大规模数据应用需求的时候,就须要建设数据中台。数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合。数据中台包含数仓体系、数据服务集和 BI 平台。
[1] 网易杭研中台实践:建中台有可行方法论吗?