离线Spark 任务调优之路一

入职新公司一段时间,接手了前辈开发的spark 引擎,最痛苦的任务开始了,看别人的代码,优化别人的代码,淦!只能一步一步来吧,先调整最棘手的问题。 解决数据量承载问题 由于之前业务刚开始,数据量较少,但是如今用户增长,数据量增加,一些配置不再适合现今的业务。第一个问题就是,数据入库问题,我们采用的是 spark 读取每日的增量日志(每个业务在70g左右,需要跑7、8个,由于公司太穷了,集群只有 4
相关文章
相关标签/搜索