使用spark对输入目录的文件进行过滤

使用spark进行文件过滤 在使用spark的很多情形下, 我们需要计算某个目录的数据. 但这个文件夹下面并不是所有的文件都是我们想要计算的 比如 : 对于某一天的数据,我们只想计算其中的几个小时,这个时候就需要把剩下的数据过滤掉 更坏的一种情形 : 对于那些正在copy(还没有完成),或者是.tmp临时文件, 程序在读取的过程中,文件发生变化已经复制完成或者被删除,都会导致程序出错而停掉
相关文章
相关标签/搜索