基于MaxCompute的数仓数据质量管理

时间 2019-11-19

标签基于 maxcompute 数据质量管理繁體版

原文原文链接

声明

本文中介绍的非功能性规范均为建议性规范，产品功能无强制，仅供指导。算法

参考文献

《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部著。sql

背景及目的

数据对一个企业来讲已是一项重要的资产，既然是资产，确定须要管理。随着业务的增长，数据的应用愈来愈多，企业在建立的数仓过程当中对数据的管理也提出了更高的要求，而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程当中如何作数据质量给出规范建议，为实际数据治理提供依据及指导。数据库

数据质量保障原则

评估数据质量的好坏不一样行业甚至不一样企业有不一样标准，在此咱们主要从四个方面进行评估，即完整性、准确性、一致性和及时性。架构

完整性。运维

完整性是指数据的记录和信息是否完整，是否存在缺失状况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失，二者都会形成统计结果不许确，能够说，完整性是数据质量最基础的保障。如某个相对稳定的业务数据量天天的都有100万条记录，某天忽然降低1万条，那么可能就是记录缺失。而对于记录中某个字段信息缺失，如某科高考成绩表中一个考卷分数要对应一个准考证号，这个字段的空值数就该为0，一旦大于0，说明该信息缺失了。

准确性。工具

准确性是指数据中记录的信息和数据是否准确，是否存在异常或者错误的信息。好比成绩单中分数出现负数，好比订单没有买家信息等，这些都是有问题的。确保记录的准确性也是抱着数据质量必不可少的一个原则。

一致性。性能

一致性通常体如今跨度很大的数据仓库体现中。 好比公司中有不少业务数仓分支，对于同一份数据必须保证一致性。例如用户ID，从在线业务库加工到数据仓库，再到各个数据应用节点，必须都是同一种类型、长度保持一致。所以在《MaxCompute数仓建设规范指南》中有了“公共层”的加工，确保数据的一致性。

及时性。测试

保障数据的及时产出，体现数据的价值。如决策的分析师通常都但愿当天能够看到前一天的数据而不是要等三五天才能看到某一个数据分析结果，不然就失去了数据及时性的价值，使得数据分析工做变得毫无心义。

数据质量管理流程

要作数据质量管理，制定知足以上数据质量原则集基础上的质量管理规范，须要考虑几方面：大数据

什么数据须要作质量管理。
什么环节进行数据质量管理。
数据质量管理具体怎么作。

数据质量定义

定义哪些数据须要作质量管理通常能够经过数据资产等级划分和元数据的应用链路分析得出。根据应用的影响程度，肯定数据资产等级；根据数据链路血缘，将数据资产等级上推至各数据生产加工的各个环节，肯定链路上所涉及的数据的资产等级和在各个加工环节上根据资产等级的不一样所采起的不一样处理方式。优化

数据资产等级定义

对于数据的资产等级，在质量管理方向，能够从数据质量“不知足四个原则”状况下对业务的影响性质，好比能够划分为5个等级的性质，即毁灭性质、全局性质、局部性质、通常性质、未知性质，不一样性质的重要性一次下降，具体定义以下:

毁灭性质，即数据一旦出错，将会引发重大资产损失，面临重大收益损失等。
全局性质，即数据直接或间接用于企业级业务和效果评估、重要决策等。
局部性质，即数据直接或间接用于某些业务线的运营、报告等，若出现问题会给业务线形成影响或者形成工做效率损失。
通常性质，即数据主要用于平常数据分析，出现问题带来的影响极小。
未知性质，即没法明确数据的应用场景。

如table的label等级，资产等级能够用Asset进行标记：毁灭性质-A1，全局性质-A2，局部性质-A3，通常性质-A4，未知性质-Ax。重要程度为：A1>A2>A3>A4>Ax。若一份数据出如今多个应用场景汇总则遵循就高原则。

数据资产等级落地方法

定义划分好数据资产等级后，接下来就考虑怎么落地，对数仓中庞大的数据量进行资产等级打标。能够从数据流转链路着手。

MaxCompute进行数据加工基本基本流程：数据从业务系统上产生，经过同步工具（DataWorks的数据集成或阿里云DTS）进入数据数仓系统（MaxCompute）,数据在数仓中进行清洗、加工、整合、算法、模型等一系列运算后，再经过同步工具输出到数据产品中进行消费。整个流程数据都是以存放在表的形式体现，流转链路大体以下图：

从数据流转链路上，整理哪些表是被哪些应用业务产品消费，经过给这些应用业务产品划分数据资产等级，再结合数据的上下游血缘，将整个链路打上某一类资产等级的标签。如，一个A2等级的的数据应用产品，对应导入这个数据产品的table即数仓（MaxCompute）的导出表Table一、Table二、Table3，几个表都打上A2-xxx数据产品标记，根据血缘往上追溯，将这几个表的上有都打上A2的标记，一直标记到源数据业务系统。

经过如上方式完成数据资产等级的确认，给不一样的数据定义不一样的重要程度。

知道了数据的重要等级针对不一样的等级，采起不一样的保障措施，接下来咱们介绍在基于MaxCompute的数据仓库中针对不一样等级的数据的保障方法。

数据加工过程卡点校验

在线系统卡点校验

在线系统数据加工过程卡点校验，主要是指在业务系统的数据生成过程当中进行的卡点校验。在线业务系统产生的数据也是数据仓库的数据来源，然而在线业务系统广泛都是复杂多变，且每次变动不可避免会带来数据的变化，数仓须要适应多变的业务发展，及时作到数据的准确性。所以，在线业务的变动如何高效的通知到基于MaxCompute的离线数据仓库，也是须要考虑的问题。这里咱们介绍两个方法拱参考：工具和人员左右开弓。纪要在工具上自动捕捉每一次业务的变化，同时也要求开发人员在乎识上自动进行业务变动通知。

工具——发布平台。在业务进行重大变动时，订阅这个发布过程，通知到离线开发人员，使其知晓这次变动内容。当业务系统足够繁杂，平常发布变动频繁的状况下，若每次变动都通知离线业务，势必会形成没必要要的浪费，同时也影响业务迭代效率。此时，能够经过数据资产等级的标识，对业务进行打标后，针对高等级的数据资产，整理出什么变动会影响数据的加工，如相关财务报表，若是业务系统的改造影响到财务报表的计算，使得约定好的计算口径被业务系统发布变动修改了，这种状况必需要告知离线业务，而离线开发人员也必须主动关注这类发布变动通知。

注意：这里指的发布平台非阿里云提供发布平台，只是一种统称，指各个企业本身在线业务的相关发布平台。

工具——数据库的变化感知。随着业务的发展，业务数据库（MaxCompute数仓的数据源）不可避免会出现数据库扩容或者DDL变动，这些变动都要主动通知到离线开发人员。基于MaxCompute的数据仓库在进行离线数据抽取时，经过DataWorks的数据集成工具，可能会限制某个业务数据库表，若是该数据库表发生扩容或者迁移等，数据集成工具感知不到，会可能致使数据抽取错漏，而一旦错漏，会影响下游一系列依赖该表的应用，所以建议业务数据库也须要有库表变动通知。

工具只是一种辅助手段，操做工具的人员才是核心。数据资产等级的上下游打通，一样也将这个过程给到在线开发人员，使其知晓哪些是重要的核心数据资产，提升在线开发人员的数据风险意识。经过培训等方式将离线数据的诉求、离线数据的加工过程、数据产品的应用方式告诉在线业务开发人员，让其了解数据的重要性，了解数据的价值，同时也告知出错后果。让在线开发人员在完成业务目标时，也要考虑数据的目标，作到业务端和数据端一致。

离线系统卡点校验

首先咱们再次认识MaxCompute进行数据加工的基本流程：数据从业务系统上产生，经过同步工具（DataWorks的数据集成或阿里云DTS）进入数仓系统（MaxCompute）,数据在数仓中进行清洗、加工、整合、算法、模型等一系列运算后，再经过同步工具输出到数据产品中进行消费。

整个流程中，有了数据加工，才有了数据仓库模型和数据仓库代码的建设，如何保障数据加工过程当中的质量是离线数据仓库保障数据质量的一个重要环节。

MaxCompute进行数据加工，能够经过DataWorks、也能够经过MaxCompute studio、或者直接经过MaxCompute SDK提交各类任务进行加工。不管用什么工具，都会经历代码开发->测试、发布->运维、变动的过程，能够对这个过程每一个环节进行卡点校验。

代码提交的卡点校验。即在sql提交前进行相关规则校验。这个校验目前公共云没有直接可用的工具辅助，有能力的用户能够本身开发相关的工具。规则分类如：
- 代码规范类规则，如表命名规范、生命周期设置、表注释等。
- 代码质量类规则，如分母为0提醒、NULL值参与计算影响结果提醒、插入字段顺序错误等。
- 代码性能类规则，如分区裁剪失效、扫描大表提醒、重复计算检测等。
任务发布上线时的卡点校验。为了保障线上数据的准确性，每一次变动都须要测试后再发布到线上生产环境，且生产环境测试经过后才算发布成功。
任务变动或者数据重跑，在离线数据加工过程当中不可避免都会出现的操做。针对这个操做，在进行更新前，须要通知下游，将变动缘由、变动逻辑、变动时间等信息代表，下游对这次变动没有异议后再按照约定时间执行发布变动，将变动对下游的影响降到最低。

数据风险点监控

前一章节主要介绍经过数据加工过程的卡点校验保障在线数据和离线数据的一致性问题，本章节主要经过对数据风险点的监控来介绍如何保障数据的准确性。

在线数据风险点监控

在线业务系统的数据生成过程须要保证数据质量，主要根据业务规则对数据进行监控。MaxCompute自己没有配套的工具，需用户本身实现，在此只能给出一些建议拱参考。

如针对数据库表的记录进行规则校验，制定一些监控规则，在业务系统中，每一个业务过程进行数据落库时对数据进行校验。监控规则如交易系统中，订单拍下时间、订单完结时间、订单支付金额、订单状态流转都配置校验规则，订单拍下时间不会大于当天时间，也不会小于业务系统上线时间，一旦出现异常校验就不经过。当业务繁杂且规则繁多，规则配置等运行成本高时，一样根据数据资产等级进行监控。

离线数据风险点监控

本小节将介绍基于MaxCompute的数据仓库建设过程当中离线数据的风险点监控，主要报对数据准确性和数据产出及时性的监控。

数据准确性

数据准确性是数据质量的关键，所以数据准确成为数据直连的重中之重，是全部离线系统加工时的第一保障要素，在此咱们主要介绍经过DataWorks的数据质量工具——DQC来保障MaxCompute离线数据的准确性。

注意，要用DQC，必须是使用DataWorks进行任务调度执行。

咱们先来认识DQC工具架构：DQC以数据集（DataSet）为监控对象，当离线MaxCompute数据发生变化时，DQC会对数据进行校验，并阻塞生产链路，以免问题数据污染扩散。同时，DQC提供了历史校验结果的管理，以便对数据质量分析和定级。

由上图咱们看出DQC主要是经过配置数据质量校验规则，自动在数据处理过程当中进行数据质量监控。DQC能监控数据质量并报警，自己不对数据产出进行处理，须要报警接收人判断并决定如何处理。

DQC数据监控规则有强规则和弱规则之分。强规则，一旦触发报警就会阻断任务的执行（将任务置为失败状态，使下游任务不会被触发执行）；弱规则，只告警不会阻断任务的执行。DQC根据阿里内部的经验，提供了一些经常使用的规则模板，包括：表行数较N天前波动率、表空间大小较N天前波动率、字段最大/最小/平均值相比N天前波动率、字段空值/惟一个数等等，更多请参考DataWorks用户手册中数据质量模块介绍。

DQC的工做流程以下图所示：

由此看出DQC的检查其实也是运行SQL任务，只是这个任务是嵌套在主任务中，若检查的太多也会影响总体的任务执行性能，所以哪些数据须要配置DQC规则，应该配置什么规则，也要根据数据资产等级来肯定。如A一、A2类数据监控率要达到90%以上，规则类须要3种以上，而不重要的数据资产不作强要求。

相似的规则都是有离线开发人员进行配置来确保数据准确性，固然不一样的业务会有业务规则的约束，这些规则来源于数据产品或者消费的业务需求，有消费节点进行配置，而后上推到离线系统的起点进行监控，作到规则影响最小化。

数据的及时性

在确保数据准确性的前提下，须要进一步让数据可以及时的提供服务，不然数据的价值将大幅下降，甚至无价值，因此确保数据及时性也是保障数据质量重中之重的一环。

基于MaxCompute的离线任务，如常见的以天做为时间间隔，对于天任务，一些重要的业务会对数据产出有时间要求，好比一些决策报表要求9:00或更早必须产出。为确保数据完整性，天任务通常都是0点开始执行，计算刚过去的一天的数据，这些任务大多在夜里运行，要确保数据按时产出，须要考虑任务的优先执行（当Project里任务不少而资源有限的时候不得不考虑）和任务执行失败或时长过长时的告警问题。这里说的重要业务的“重要性”一样是前面所说的数据资产等级的划分，等级越高保障优先级越高。

任务优先级。MaxCompute平台上任务优先级都是同样，没法配置。所以要对MaxCompute的任务实现“优先级”功能，只能从调度平台入手，优先调度下发重要的任务。
DataWorks平台的调度任务，当对应的Project是使用预付费资源（预购固定的计算资源仅供当前项目使用）时，能够经过“智能监控”工具进行优先级设置。DataWorks的调度是一个树形结构，当配置了叶子节点的优先级，这个优先级会传递到全部的上游节点，而叶子节点每每就是服务业务的消费节点。所以在优先级的设置上，先肯定业务的资产等级，等级越高的业务对应的消费节点优先级配置越高，优先调度从而优先占用计算资源，确保高等级业务准时产出。

当DataWorks的节点任务所属的Project使用的是MaxCompute的后付费资源（计算按量付费，无固定资源使用），智能监控配置的优先级无效，所以，须要评估是否要购买预付费资源，同时对任务进行优化，减小没必要要的资源浪费，力争在有限的资源下更高效的完成计算。
任务报警。任务报警和优先级相似，经过DataWorks的“智能监控”工具进行配置，只须要配置叶子节点便可向上游传递。任务执行过程当中出错或者可能出现延迟都是不可避免的，为了保障最重要数据（资产等级高）产出，咱们须要“出错”当即处理、“可能”延迟必须知晓并介入。
DataWorks—智能监控。MaxCompute的离线任务，经过DataWorks进行离线任务调度时，DataWorks提供智能监控工具，对调度任务进行监控告警。
智能监控是DataWorks任务运行的监控及分析系统。根据监控规则和任务运行状况，智能监控决策是否报警、什么时候报警、如何报警以及给谁报警。智能监控会自动选择最合理的报警时间，报警方式以及报警对象。
智能监控旨在：
- 下降您的配置成本。
- 杜绝无效报警。

自动覆盖全部重要任务（数量已经多到您本身没法梳理）。

数据质量衡量

前面章节给出了保障基于MaxCompute的数据仓库数据质量的方案，可是这些方案是否真的合适，或者哪些点须要改进，这些需制定一套指标进行度量。
好比：频繁的接到DataWorks的智能监控发出的告警；每个数据质量事件发生，必须分析有缘由、处理过程、后续同类事件预防方案；严重的数据质量事件升级为故障，并对故障进行定义、等级划分、处理、review。

原文连接本文为云栖社区原创内容，未经容许不得转载。