爬虫系列之数据质量监控(三):数据推送统一接口逻辑处理

(一)KAFKA统一数据推送接口 1) 非空校验 处理逻辑:除标题为空数据直接存入异常MySQL库中外,其他类型的数据直接流到数据质量校验步骤进行分析; 2) 数据质量校验 主要是根据每个字段设置的校验规则,对其进行相应的校验处理。 3) 二次排重处理: 由于Bloom Filte中的元素只可以添加,不可以被删除。又由于数据量较大(每天5000W左右),长时间会耗费很多内存资源,投入较大。   同
相关文章
相关标签/搜索