「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

做者 | 蒋珍波数据库

本文是数据治理系列文章的第三篇,主要讲数据治理中的重要工做:数据质量管理。架构

我将从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些我的观点。ide

1、数据质量管理的目标

数据质量管理主要解决「数据质量现状如何,谁来改进,如何提升,怎样考核」的问题。工具

为何这篇文章的标题中有“不忘初心方得始终”这几个字呢。由于最开始的关系型数据库时代,作数据治理最主要的目的,就是为了提高数据质量,让报表、分析、应用更加准确。时至今日,虽然数据治理的范畴扩大了不少,咱们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,可是提高数据的质量,依然是数据治理最重要的目标之一。大数据

为何数据质量问题如此重要?优化

由于数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。3d

若是一个组织根据劣质的数据分析业务、进行决策,那还不如没有数据,由于经过错误的数据分析出的结果每每会带来“精确的误导”,对于任何组织来讲,这种“精确误导”都无异于一场灾难。blog

「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

根据统计,数据科学家和数据分析员天天有30%的时间浪费在了辨别数据是不是“坏数据”上,在数据质量不高的环境下,作数据分析可谓是战战兢兢。可见数据质量问题已经严重影响了组织业务的正常运营。经过科学的数据质量管理,持续地提高数据质量,已经成为组织内刻不容缓的优先任务。数据分析

2、数据质量问题从何而来?

作数据质量管理,首先要搞清楚数据质量问题产生的缘由。缘由有多方面,好比在技术、管理、流程方面都会碰到。但从根本上来时,数据质量问题产生的大部分缘由在于业务上,也就是管理不善。许多表面上的技术问题,深究下去,其实仍是业务问题。it

「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

我在给客户作数据治理咨询的时候,发现不少客户认识不到数据质量问题产生的根本缘由,局限于只想从技术角度来解决问题,但愿经过购买某个工具就能解决质量问题,这固然达不到理想的效果。通过和客户交流以及双方共同分析以后,大部分组织都能认识到数据质量问题产生的真正根源,从而开始从业务着手解决数据质量问题了。

从业务角度着手解决数据质量问题,重要的是创建一套科学、可行的数据质量评估标准和管理流程。

3、数据质量评估的标准

当咱们谈到数据质量管理的时候,咱们必需要有一个数据质量评估的标准,有了这个标准,咱们才能知道如何评估数据的质量,才能把数据质量量化,并知道改进的方向,比较改进后的效果。

目前业内承认的数据质量的标准有:

准确性: 描述数据是否与其对应的客观实体的特征相一致。

完整性: 描述数据是否存在缺失记录或缺失字段。

一致性: 描述同一实体的同一属性的值在不一样的系统是否一致

有效性: 描述数据是否知足用户定义的条件或在必定的域值范围内。

惟一性: 描述数据是否存在重复记录。

及时性: 描述数据的产生和供应是否及时。

稳定性: 描述数据的波动是不是稳定的,是否在其有效范围内。

以上数据质量标准只是一些通用的规则,这些标准是能够根据数据的实际状况和业务要求进行扩展的,如交叉表校验等。

4、数据质量管理流程

要提高数据质量,须要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,造成数据质量持续提高的闭环。

首先须要梳理和分析数据质量问题,摸清楚数据质量的现状;而后针对不一样的质量问题选择适合的解决办法,制定出详细的解决方案;接着是问题的认责,追踪方案执行的效果,监督检查,持续优化;最后造成数据质量问题解决的知识库,以供后来者参考。上述步骤不断迭代,造成数据质量管理的闭环。

「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

很显然,要管理好数据质量,仅有工具支撑是远远不够的,必需要组织架构、制度流程参与进来,作到数据的认责,数据的追责。这和我在第一篇文章《数据治理:那些年,咱们一块儿踩过的坑》中阐述的观点是一致的,你们能够参考那篇文章。

5、数据质量管理的取与舍

企业也好,政府也好,历来不是生活在真空之中,而是被社会牢牢地包裹。解决任何棘手的问题,都必须考虑到社会因素的影响,作适当的取舍。

第一个取舍:数据质量管理流程。前面讲到的数据质量管理流程,是一个相对理想的状态,可是不一样的组织内部,其实施的力度都是不一样的,以数据追责为例:在企业内部推行还具备必定的可行性,可是在政府就很难适用。由于政府部门的大数据项目,牵头单位不管是谁,极可能没有相关的权限。举个例子:你很难想像市经信委去跟市政府办公厅进行数据质量的问责。这与数据治理的建设方在整个大的组织体系中的话语权有很大的关系。这就是咱们作数据治理必须接受的现实。遇到这种问题,咱们只能迂回地作些事情,尽可能弥补某个环节缺失带来的不利影响,好比和数据提供方一块儿创建起数据清洗的规则,对来源数据作清洗,尽可能达到可用的标准。

第二个取舍:不一样时间维度上的数据采起不一样的处理方式。从时间维度上划分,数据主要有三类:将来数据、当前数据、历史数据。在解决不一样种类的数据质量问题时,须要考虑取舍之道,采起不一样的处理方式。

「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

相关文章
相关标签/搜索