随着大数据时代的到来,愈来愈多的行业开始注重数据,而且使用数据为业务赋能,数据质量是数据仓库和数据挖掘的基础,也是数据驱动业务的前提,同时数据质量是数据治理建设的重要一环,与元数据管理,数据标准化及数据服务管理等共同构建了数据治理的体系框架,建设一个完整的质量监控平台,须要从监控、标注、流程制度等方面提高信息管理能力,优先解决所面临的数据质量和数据服务问题。前端
一、完整性
完整性是指数据的记录和信息是否完整,是否存在缺失的状况。
数据的缺失主要包括库表变动时没有及时同步所造层:记录中某个字段信息的缺失,形成统计结果不许确,因此说完整性是数据质量最基础的保障。算法
二、准确性
准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。
直观来说就是看数据是否上准确的。通常准确性的监控多集中在对业务结果数据的监控,好比每日的活跃、收入等数据是否正常。后端
三、一致性
一致性是指同一指标在不一样地方的结果是否一致,是否存在较波动。
数据不一致的状况,多出如今数据系统达到必定的复杂度后,同一指标会在多处进行计算,因为计算口径或者开发人员的不一样,容易形成同一指标出现的不一样的结果。微信
四、及时性
在确保数据的完整性、准确性和一致性后,接下来就要保障数据可以及时产出,这样才能体现数据的价值。
及时性很容易理解,主要就是数据计算出来的速度是否够快,这点在数据质量监控中能够体如今监控结果数据数据是否在指定时间点前计算完成。框架
数据监控主要包括:性能监控、平常监控、数据对帐,其中性能监控主要指:数据的读写,资源队列使用、节点消耗等运维层面的监控,本次主要讨论平常监控、数据对帐,运维
能够从如下几点思考源码分析
:布局
对于培优目前的3600多张表,1.5w 个任务,一些业务持续不断变化,咱们须要关注哪些点,保障上层业务的稳定性:性能
数据质量监控是一个不断迭代优化的过程,目前咱们也是在探索阶段,但愿和你们交流和学习,一块儿作好对数据监控,持续为业务赋能。学习
end
做者简介
习沛为好将来数据仓库专家
招聘信息
好将来技术团队正在热招前端、算法、后端等各个方向高级开发工程师岗位,你们可扫描下方二维码或微信搜索“好将来技术”公众号,点击“技术招聘”栏目了解详情,欢迎感兴趣的伙伴加入咱们!
也许你还想看