SparkStreaming示例在集群中运行

时间 2019-12-06

原文原文链接

SparkStreaming是依托于Spark的用于实时计算的工具，按照设置的时间间隔对数据流进行切分为一个一个的RDD，而后对这些时间段内产生的RDD进行批处理。如图：socket 主要的处理步骤以下：工具 1.定义好数据源。这里的数据源可使本地文件，socket套接字连接，也能够是hdfs，kafka，Flume等产生的数据。oop 2.准备好流计算指令。这里的指令就