spark程序性能优化--合并文件

时间 2020-12-31

原文原文链接

背景：把总量3T的文件和40G的文件合并按key合并，把3T中40G有的记录换成40G的，40G中3T没有的加上。原先是按其中一个数据域经过hash，把数据分成3个part进行处理，大概每个半小时，3个任务1.5小时处理完（之前3T的数据总量大约1.2T）。但随着数据增加，每个部分数据变为了1T，并且数据长度增长，原先半小时的任务跑2个小时都跑不完，进行优化。（1）读入优化：对每条记录用spli

>>阅读原文<<