数据已成为不少公司的核心资产,而在数据开发的过程当中会引入各类质量、效率、安全等方面的问题,而数据治理就是要不断消除引入的这些问题,保障数据准确、全面和完整,为业务创造价值,同时严格管理数据的权限,避免数据泄露带来的业务风险。数据治理是数字时代不少公司一项很是重要的核心能力,本文介绍了美团酒旅平台在数据治理方面的实践。
随着移动互联网的兴起,线下商业活动逐渐开始向线上化发展,数据的产生速度有了极大的提高。愈来愈多的公司开始认识到数据的重要性,并将其打形成为公司的核心资产,从而驱动业务的发展。在数据相关的领域中,“数据治理”这个话题近两年尤其火热,不少公司特别是大型互联网公司都在作一些数据治理的规划和动做。前端
为何要作数据治理?由于在数据产生、采集、加工、存储、应用到销毁的全过程当中,每一个环节均可能会引入各类质量、效率或安全相关的问题。在公司早期的发展阶段,这些数据问题对公司发展的影响并非很大,公司对问题的容忍度相对也比较高。可是,随着业务的发展,公司在利用数据资产创造价值的同时,对数据质量和稳定性要求也有所提高。此外,当数据积累得愈来愈多,公司对数据精细化运营程度的要求也随之提升,会逐渐发现有不少问题须要治理。算法
同时,在数据开发的过程当中也会不断引入一些问题,而数据治理就是要不断消除引入的这些问题,保障数据准确、全面和完整,为业务创造价值,同时严格管理数据的权限,避免数据泄露带来的业务风险。所以,数据治理是数字时代不少公司一项很是重要的核心能力。数据库
数据治理是一项须要长期被关注的复杂工程,这项工程经过创建一个知足企业需求的数据决策体系,在数据资产管理过程当中行使权力、管控和决策等活动,并涉及到组织、流程、管理制度和技术体系等多个方面。通常而言,数据治理的治理内容主要包括下面几个部分:后端
2014年,美团酒旅业务成为独立的业务部门,到2018年,酒旅平台已经成为国内酒旅业务重要的在线预订平台之一。业务发展速度较快,数据增加速度也很快。在2017到2018两年里,生产任务数以每一年超过一倍的速度在增加,数据量以每一年两倍多的速度在增加。若是不作治理的话,根据这种接近指数级的数据增加趋势来预测,将来数据生产任务的复杂性及成本负担都会变得很是之高。在2019年初,咱们面临着下面五种问题:安全
2019年,美团酒旅数据团队开始主动启动数据治理工做,对数据生命周期全链路进行体系化数据治理,指望保障数据的长期向好,解决数据各个链路的问题,并保持数据体系的长期稳定。具体的目标包含如下几个方面:架构
其实早在2018年之前,酒旅数据组就作过数据治理,当时只是从数仓建模、指标管理和应用上单点作了优化和流程规范。以后,基于上面提到的五个问题,咱们又作了一个体系化的数据治理工做。下面将介绍一下美团酒旅数据团队在数据治理各个方向上的具体实践。运维
数据治理方案须要覆盖数据生命周期的全链路,咱们把数据治理的内容划分为几大部分:组织、标准规范、技术、衡量指标。总体数据治理的实现路径是以标准化的规范和组织保障为前提,经过作技术体系总体保证数据治理策略的实现。同时,搭建数据治理的衡量体系,随时观测和监控数据治理的效果,保障数据治理长期向好的方向发展。工具
咱们制定了一个全链路的数据标准,从数据采集、数仓开发、指标管理到数据生命周期管理,全链路创建标准,在标准化创建过程当中联合组建了业务部门的数据管理委员会。性能
2.1 标准化测试
数据标准化包括三个方面:一是标准制定;二是标准执行;三是在标准制定和执行过程当中的组织保障,好比怎么让标准能在数据技术部门、业务部门和相关商业分析部门达成统一。
从标准制定上,咱们制定了一套覆盖数据生产到使用全链路的数据标准方法,从数据采集、数仓开发、指标管理到数据生命周期管理都创建了相应环节的标准化的研发规范,数据从接入到消亡整个生命周期所有实现了标准化。
2.2 组织保障
根据美团数据管理分散的现状,专门创建一个职能全面的治理组织去监督执行数据治理工做的成本有点过高,在推进和执行上,阻力也会比较大。因此,在组织保障上,咱们创建了委员会机制,经过联合业务部门和技术部门中与数据最相关的团队成立了数据管理委员会,再经过委员会去推进相关各方去协同数据治理的相关工做。
业务部门的数据接口团队是数据产品组,数据技术体系是由数据开发组负责建设,因此咱们以这两个团队做为核心创建了业务数据管理委员会,并由这两个团队负责联合业务部门和技术部门的相关团队,一块儿完成数据治理各个环节工做和流程的保障。组织中各个团队的职责分工以下:
数据管理委员会:负责数据治理策略、目标、流程和标准的制定,并推进全部相关团队达成认知一致。
业务数据产品组:负责数据标准、需求对接流程、指标统一管理、数据安全控制以及业务方各部门的协调推进工做。
技术数据开发组:负责数据仓库、数据产品、数据质量、数据安全和数据工具的技术实现,以及技术团队各个部门的协调推进工做。
数据治理涉及的范围很是广,须要协做的团队也不少,除了须要经过组织和流程来保障治理行动正常开展,咱们也考虑经过技术系统化和自动化的方式进一步提效,让系统代替人工。下面咱们将从数据质量、数据成本、数据安全和运营效率等几个方向,来逐一介绍技术实现方案。
3.1 数据质量
数据质量是影响数据价值最重要的因素,高质量的数据给带来准确的数据分析,错误的数据会把业务引导到错误的方向。数据质量涉及范围较广,在数据链路的每个环节都有可能出现数据质量问题,酒旅业务现阶段的主要质量问题包括:
数据组的治理数据质量方案覆盖了数据生命周期的各个环节,下面将介绍一下总体的技术架构。
3.1.1 统一数仓规范建模(One Model)
在业务发展初期,数据团队集中精力在快速建设数仓来支持业务,数仓建模规范疏于管理。随着业务的发展,数仓中的数据急剧增多,数据产品和下游应用快速增长,数据工程师和数据使用方也变得愈来愈多,数仓的问题日益突显。业务数据仓库从初期发展到如今主要暴露了3方面的问题:
数据团队主要经过数仓规范化制定、数仓分层架构和数仓规范化系统来解决上述问题,下面是咱们的具体解决方案。
制定标准-数仓规范
作好数仓规范化最基本的前提是要制定一系列标准化的规范,并推进组内同窗执行。标准化的适用性、全面性和可执行性直接影响到规范的执行效果。数仓规范主要从3个方面制定数据标准化:
工具保障-数仓规范化开发系统-Dataman
在执行数据规范化的过程当中,咱们发现团队中每一个人对规范的理解不一致,极可能形成数据规范不统一,审核人在审核上线任务时须要考虑规范的所有规则,审批须要投入的人力较多。在这样的流程下,数据规范性没法从根源上进行控制,所以须要建设数据规范化的工具,经过系统保障规范的一致性。数据组使用的数据层规范化工具-Dataman,主要包括3个功能模块:标准化规范、配置化开发和规则化验证。
3.1.2 统一指标逻辑管理(One Logic)
业务使用数据的第一步是搭建业务指标体系,业务的目标和策略的执行状况须要经过指标来分析,指标体系的合理性和指标数据的质量直接影响到业务决策,指标的重要性不言而喻。咱们经过系统化地管理数据指标,从根源上解决指标口径一致性问题,主要从如下3个方向入手:
指标定义规范化
此处主要从指标的生成和管理上作好规范,确保业务同窗和研发人员对指标体系管理的认知一致,确保指标的新建、更改和使用都按照规范执行。咱们经过下面2个方向来实现指标定义的规范统一。
指标管理系统化
物理数据表管理:数据表管理的信息主要包括表的基础元数据信息、表类型(维表或事实表)、表的推荐度、描述信息和样例数据等。数据表管理主要是面向数据开发同窗,经过维护数据表信息,为数据模型和指标管理提供数据基础支持。
数据模型管理:是对物理数据表的模型构建,经过一个物理模型能够查询到指标和相关的维度数据。数据模型能够是星型模型或宽表,星型模型中维护多个数据表的关联方式、关联字段、维度表包含字段和模型的ER图等信息。
指标管理:主要包括2部分的内容,指标的业务信息和技术信息。
指标查询智能化
在指标管理系统中建立指标时,咱们系统化管理了指标与数仓物理模型的关联关系和取数逻辑,经过数据物理模型得到指标对应的字段和能够关联的维度,以此把指标解析为数据查询SQL语句,经过数据查询引擎执行生产的SQL,智能化得到指标数据。
在查询解析过程当中,常常出现指标绑定了多个底层数据表的状况,此时须要咱们手动的选一个物理模型做为指标生产的底层数据。但问题是,若是一个指标对应的模型太多,每次解析都须要手动指定,研发人员不肯定选择哪一个模型的性能最好。另外,随着物理模型的增多,大量旧的指标配置的关联模型不是最优解,就须要手动优化更改。为了解决这个问题,指标管理系统增长了智能解析模块,在选择智能模式查询时,系统会根据指标管理模型的数据量、存储性能和查询次数等信息自动选取最优的物理模型。
3.1.3 统一数据服务(One Service)
数据仓库对外提供数据的需求愈来愈多,除了管理层、分析师和产品运营同窗使用数据产品和报表外,数据还须要提供到各个业务系统中使用。经常使用的提供数据的方式主要包括同步数据表、提供SQL和为下游服务开发定制化API接口等方式,但存在如下几个方面的问题:
从2018年开始,数据BP中心与分析系统中心合做建设了统一数据API服务平台(Buffalo),经过开发可配置的数据接口服务平台实现数据对外的灵活提供,并实现对数据服务的下游使用及性能的可监控。统一的数据服务平台解决了几个比较关键的问题:
3.1.4 统一用户产品入口(One Portal)
若是不加控制,数据产品就会建设得愈来愈多。酒旅业务在2018年有超过10个数据相关产品的入口,用户很难快速地找到本身想要查的数据产品和报表。不一样产品面对的用户不同,数据的使用场景和展现方式也各不相同,业务方在使用数据时不知道从哪里能看到最全面的数据产品。
此外,也存在由于适用场景不同,致使面向不一样用户的数据逻辑不一样的状况,好比某些业务同窗查看的GMV不包含民宿数据,可是商业分析团队要看的GMV是包含民宿数据的。为了可以让业务方可以在一个数据产品门户中找到更全面的数据,且这个产品门户中多个产品的数据逻辑是一致的,咱们将数据门户按照使用用户和应用场景划分为3类:
3.1.5 总体系统架构
总体的技术架构分为三层,从统一数据建模到统一指标逻辑、统一数据服务和统一产品入口,总体保障了数据的质量,同时配合数据管理的组织保障体系和流程规范,将总体数据质量相关的架构搭建起来。
3.2 数据运营效率
数据工程师在平常工做中的主要工做包括两大部分:数据开发和数据运营。咱们在前面介绍了经过数据开发和指标管理相关的工具系统建设,开发效率获得了大幅提高。而数据运营是另外一大类工做,他们的主要时间投入在数据使用咨询和数据问题答疑,大概占数据工程师平常工做5%~10%的时间。
数据工程师平常投入到运营的人力多的主要缘由是信息不对称和信息检索能力弱,数据团队建设了不少数据模型和数据产品,可是用户不知道怎么快速地找到和使用这些数据,问题主要体如今下面3个方面:
3.2.1 方案思路
数据团队经过数据资产信息的系统化的方式建设易用的数据检索产品,帮助用户更快捷、更方便地找到数据,并指导用户正确地使用数据,提升数据信息的易用性,以此减小数据工程师的数据答疑和运维时间。实现策略是经过用户的问题分类,经过数据信息系统化的方式分类解答80%的问题,最后少许的问题透传到研发人员再进行人工答疑。系统化方式主要分两层,数据使用智能和数据答疑机器人。
3.2.2 数据使用指南系统
数据使用指南的定位是业务数据信息的知识白皮书,提供最新、最全、最准确的指标口径、项目指标体系、数据表用法等信息,以简洁、流畅的操做支持数据指南中的内容及时更新,下降业务方的数据答疑和数据使用成本。
数据使用指南经过把业务场景和数据使用场景打通,从业务场景分析到使用到的数据表、指标和数据产品打通,在系统中可以快速找到数据表、指标定义、数据查询SQL、指标所在数据产品等信息,一站式解决数据查找、使用和分析的所有场景。主要功能包括指标信息和数据表信息及使用。
3.2.3 数据答疑机器人
用户在使用数据时,常常咨询数据工程师一些问题,好比想找的数据在哪一个表?指标怎么取?业务系统的一个字段怎么在数仓里面取到?不少问题会被重复问到,每次解答都须要研发人员花费必定的时间,而经过Wiki的方式维护效果较差,因而咱们考虑用自动化答疑的方式,把数据工程师在平常答疑过程当中积累问题和答案,经过必定的规则匹配,当再次被问到时系统能够自动地给出解答。
使用平常答疑中积累的咨询问题和答案做为基础答疑知识库,数据答疑机器人使用美团AI平台的摩西机器人搭建,配合问题答疑的策略,实现对历史已有问题和答案经过搜索匹配后发送给用户,具体实现方式以下:
3.3 数据成本
大数据的主要成本构成有3大部分,计算资源、存储资源和日志采集资源,其中计算资源和存储占总成本超过90%,咱们的数据成本治理主要是针对大数据计算和存储这两个部分。
大数据成本优化方案
计算资源
存储资源
日志采集资源
3.4 数据安全
数据资产对业务来讲既是价值,也是风险。数据安全做为业务部门“事关生死”的核心工做,在技术架构上会从数据产生到数据应用各个环节进行控制,保障数据应用事前有控制、事中有监控和过后有审计。数据安全控制从业务系统开始对用户高敏感数据加密,在数仓进行分级和脱敏,在应用层作密文数据权限和密钥权限的双重保障,管控用户相关的高敏感数据,按照三层系统控制加五个使用原则实现以下:
业务部门在业务发展初级就会创建指标体系,并使用数据指标对各个业务过程作精细化的分析,衡量业务目标的达成状况和行动的执行程度。数据治理也须要一套成熟稳定的衡量指标体系,对数据体系作到长期、稳定和可量化的衡量。咱们经过制定体系化的数据衡量指标体系,来及时监测数据治理过程当中哪些部分作的好,哪些部分还有问题。
4.1 衡量指标建设
为了可以不重不漏地把指标都创建起来,咱们从2个方面进行考虑:
4.2 衡量指标保障数据治理
根据PDCA原则,将数据治理做为平常的运营项目作起来,底层依赖数据指标体系进行监控,之上从发现问题到提出优化方案,而后跟进处理,再到平常监控,构成一个完整的循环。
数据治理覆盖了数据生命周期全链路,经过围绕数据从产生到价值消亡所有生命周期,创建数据治理组织、制定治理衡量体系和建设治理技术系统来达到数据治理目标。通过体系化的数据治理,数据系统的治理、成本、安全和运营效率都有了比较大的改善。
数据治理分为三个大阶段:被动治理、主动治理、自动治理。
目前,美团酒旅业务数据治理处在第二阶段和第三阶段之间,虽然有总体治理计划、技术架构和组织保障,但仍须要投入必定的人力去作。将来,数据治理会继续朝着智能化的方向进行探索,真正把自动化治理工做作得更好。
阅读美团技术团队更多技术文章合集
前端 | 算法 | 后端 | 数据 | 安全 | 运维 | iOS | Android | 测试
| 在公众号菜单栏对话框回复【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。
| 本文系美团技术团队出品,著做权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至tech@meituan.com申请受权。