使用spark对输入目录的文件进行过滤

时间 2021-01-17

原文原文链接

使用spark进行文件过滤在使用spark的很多情形下, 我们需要计算某个目录的数据. 但这个文件夹下面并不是所有的文件都是我们想要计算的比如 : 对于某一天的数据,我们只想计算其中的几个小时,这个时候就需要把剩下的数据过滤掉更坏的一种情形 : 对于那些正在copy(还没有完成),或者是.tmp临时文件, 程序在读取的过程中,文件发生变化已经复制完成或者被删除,都会导致程序出错而停掉

>>阅读原文<<