spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案

spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案java 问题:解析字符串,构建spark dataframe结果集,全量去重,数据量过多,解析复杂,致使从早上1分钟到晚上30分钟才能跑完一次任务。 spark  streaming的接收源通常是推来的,不像kafka会推过来,而后再根据偏移量来记录刻度, 优化方案:按小时去清理数据
相关文章
相关标签/搜索