spark 读取ORC文件时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案

一、背景:     控制上游文件个数天天7000个,每一个文件大小小于256M,50亿条+,orc格式。查看每一个文件的stripe个数,500个左右,查询命令:html hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11/part-06999 -files -blocks; stripe个数查看命
相关文章
相关标签/搜索