数据治理-HDFS废弃文件、Hive废弃表检测与清理

一、背景 废弃下线的业务,直接在调度系统下线了相应的调度任务,而大量历史数据仍然残留,须要清除。 去年集群迁移,致使不少表有HDFS数据但Hive上没有元数据,须要清除。mysql 二、思路 ① 扫描HDFS目录,到分区深度(好比/user/hive/warehouse/test.db/hdfs_audit/pt=20200416,深度为6)web ② 采集HDFS audit log(注意过滤扫
相关文章
相关标签/搜索