爬虫系列之数据质量监控(一)

一、概述 1.现状 最近SaaS平台、APP等产品,总是采集的数据中存在各种各样的问题,如标题解析成JavaScript代码,或者包含一段无用的字符、或者出现一个乱码字符串等等。 先前的那套监控机制的弊病似乎越来越大,已无法满足数据监控的需求。 随着现在的数据类型、定制的采集脚本、涉及到的人员等不断增多,采集难度的不断加大,各种各样的问题频繁出现。 为了制定一套真正能够实时监控数据质量,并能够快速
相关文章
相关标签/搜索