Spark Structured Stream的流关联(Stream-Stream Joins)

自Spark 2.3开始,Spark Structured Streaming开始支持Stream-stream Joins。两个流之间的join与静态的数据集之间的join有一个很大的不一样,那就是,对于流来讲,在任意时刻,在join的两边(也就是两个流上),数据都是“不彻底”的,当前流上的任何一行数据均可能会和被join的流上的将来某行数据匹配到,为此,Spark必需要缓存流上过去全部的输入,
相关文章
相关标签/搜索