记录两次sparkjob优化,性能提升几十倍不止

目前在做两个项目,一个搜索平台化一个排序服务化,在项目开发中两者都用到了spark开发数据处理,遇到问题多多,但解决后性能提升几十倍不止,下面记录下两次优化。 一、在特征处理中,需要读取hive的数据进行业务逻辑处理写入到kv系统中,为了减少shuffle,每次处理直接用mapPartitons以及foreachPartitons进行处理,整体都速度不错,但是就是有那么几个特征hive表处理就是非
相关文章
相关标签/搜索