记录两次sparkjob优化，性能提升几十倍不止

时间 2020-12-31

原文原文链接

目前在做两个项目，一个搜索平台化一个排序服务化，在项目开发中两者都用到了spark开发数据处理，遇到问题多多，但解决后性能提升几十倍不止，下面记录下两次优化。一、在特征处理中，需要读取hive的数据进行业务逻辑处理写入到kv系统中，为了减少shuffle，每次处理直接用mapPartitons以及foreachPartitons进行处理，整体都速度不错，但是就是有那么几个特征hive表处理就是非

>>阅读原文<<