“Qualitis是微众银行开源的一款数据质量管理系统,用于解决业务系统运行、数据中心建设及数据治理过程当中的各类数据质量问题。
开源连接: git
https://github.com/WeBankFinTech/Qualitis。”github
Qualitis是什么
Qualitis是一个数据质量管理系统,用于监控数据质量。它提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
Qualitis基于Spring Boot开发,依赖于Linkis进行数据计算,提供数据质量规则构建,数据质量规则执行,数据质量任务管理,异常数据发现保存等功能。
同时它也提供了金融级数据质量规则资源隔离,资源管控,权限隔离等企业特性,具有高并发,高性能,高可用的大数据质量管理能力。
为何须要Qualitis?
随着业务的发展和数据量的增长,大数据应用开发会逐步成为经常使用的开发方式。
而因为大数据具备如下四个特色:海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value),这就给数据的惟一性,完整性,一致性等校验带来了很大挑战。
目前广泛存在的现象是,不一样的业务根据自身的业务特色,额外开发报表或检查任务,对数据进行检测,很是的费时费力。
在这种状况下,一个可配置化,可视化,可监控,可嵌入数据处理过程,而且具备普适性,可以提供通用的特性来解决数据质量问题的数据质量管理工具就显得尤其重要。
为了解决以上问题,WeBank开发了Qualitis这个数据质量管理工具。
此项目已经发布到github上,而且也在持续改进中,欢迎fork并参与进来:https://github.com/WeBankFinTech/Qualitis
工做流程spa
-
-
-
-
1.建立数据质量项目
数据质量项目是数据质量规则的集合,项目将数据质量规则分隔开来。

2.创建数据质量规则
建立好数据质量项目以后,能够在项目中建立数据质量规则。
Qualitis提供两种类型的数据质量规则建立方式:
1.基于模版进行数据质量规则的建立
2.自定义数据质量规则建立
Qualitis中预置了多个数据质量模版,用于简化数据质量规则的建立。
3.执行数据质量任务
Qualitis依赖于Linkis计算中间件,基于Linkis实现数据质量的计算和校验。
Qualitis在接收到数据质量任务请求时,会将规则转换成数据质量任务,并提交到Linkis中的Spark引擎进行执行,即使是大结果集数据也能够很快地被计算出来。

4.查看数据质量任务结果
Qualitis会将该任务中的全部规则提取出来,展现给用户哪些规则没有经过校验,并给出具体的校验报告,告知用户,不符合预期的异常数据存放在哪里。

Qualitis的核心特性
做为一个数据质量管理系统,Qualitis提供如下四种核心特性。

1.完美的嵌入工做流
为了可以及时进行数据质量检测,防止数据质量管理和数据处理分离,Qualitis接入了DataSphere Studio工做流,实现了在工做流当中进行数据质量检测。

2.灵活的规则建立机制
Qualitis提供了基于模型驱动的数据质量管理方案。
要进行数据质量检测,首先要根据定义数据质量模型,也叫规则。
目前Qualitis提供了如下两种数据质量规则的建立方式:
-
-
对于常规化的质量校验需求,能够选择Qualitis预置的模版,并填入相应的参数,简简单单的就能够完成数据质量规则的定义。目前Qualitis预置了如下模版:
空值校验
逻辑校验
枚举校验
身份证校验
...
而对于复杂的质量校验需求,用户能够根据本身的需求来自定义质量规则。
不但如此,Qualitis也提供了丰富的度量值比较方式,包括月波动,周波动,日波动,固定值等多种比较方式,可以灵活的建立规则,监测度量值的变化。
3.强大的异常数据搜集能力
每次执行数据质量任务时,不只会对度量值进行计算,还会将不符合预期的异常数据给提取出来,方便用户查看,以便快速定位问题。
4.友好的用户界面
Qualitis依赖于Linkis,基于Linkis作数据计算。当接收到数据质量任务请求时,会将数据规则转换成数据质量任务并提交到Linkis中执行。
同时,Qualitis会从Linkis中搜集任务日志信息,并进行聚合,方便用户以及管理人员对数据质量任务进行排查。
Qualitis和WeDataSphere
WeDataSphere是一套一站式、金融级、开源开放大数据平台套件,已在国内最大线上银行WeBank,通过了数年海量严苛金融业务场景的打磨和验证,表现卓越。

更多关于WeDataSphere的介绍,请访问:
https://github.com/WeBankFinTech/WeDataSphere。
Qualitis,是WeDataSphere的数据工具组件之一。
它使用了WeDataSphere核心组件数据中间件Linkis,进行数据计算,并接入了DataSphere Studio,实现了在工做流当中进行数据质量检测。
DataSphere Studio也于同期开源。关于DataSphere Studio请访问
https://github.com/WeBankFinTech/DataSphere
Studio

总结
Qualitis做为数据质量管理系统,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
咱们的目标是简化异常数据的发现,提升数据质量,方便数据的管理。
咱们从此将会不断改进,支持对更多数据源进行数据质量校验。
如您感兴趣,欢迎访问开源Github:
https://github.com/WeBankFinTech/Qualitis
期待更多的社区力量,一块儿推进Qualitis的成长。