Spark Streaming 流计算优化记录(2)-不同时间片数据流的Join

1. 不同时间片数据流的Join          初体验之后, 看了一下Spark WebUi 的日志, 发现由于Spark Streaming需要每秒跑一次, 以实时计算数据, 所以程序不得不每秒都读一次HDFS去获取数据进行inner join.          本来SparkStreaming会对其进行处理的数据进行缓存, 以减少IO和提高计算速度的, 但由于现在我们的场景是要把每秒都有
相关文章
相关标签/搜索