spark处理大量小文件

时间 2019-12-06

标签 spark 处理量小文件栏目 Spark 繁體版

原文原文链接

spark core处理小文件sql

在sparkContext的api中，有HadoopFile相关api，能够定义本身的InputFormat。原理跟MapReduce处理小文件同样，参考以前博客：newAPIHadoopFile。除了复写InputFormat以外，还能够用shell控制文件大小，合并小文件。还能够使用sparkContext的newAPIHadoopFile，以下：shell

val initRdd = sc.newAPIHadoopFile[LongWritable, Text, CombineTextInputFormat](hdfs_uri + primary_path).map{ line => line._2.toString }

spark sql从hive中读取小文件api

spark sql是不会自动合并小文件的（hive会自动合并小文件），小文件越多，产生的task就会越多oop

当spark sql要从hive中读取表t1，若是使用hive，hive是会对t1表的小文件处理的，可是spark sql不会不会处理小文件，因此咱们须要使用间接的方法，首先设置SET spark.sql.shuffle.partitions=20;，而后再执行以下语句：spa

insert overwrite table splited_tmp select * from splited_tmp_split distribute by rand(123);

最后，新表splited_tmp就是20个文件了。.net