SparkStreaming示例在集群中运行

  SparkStreaming是依托于Spark的用于实时计算的工具,按照设置的时间间隔对数据流进行切分为一个一个的RDD,而后对这些时间段内产生的RDD进行批处理。如图:socket        主要的处理步骤以下:工具   1.定义好数据源。这里的数据源可使本地文件,socket套接字连接,也能够是hdfs,kafka,Flume等产生的数据。oop   2.准备好流计算指令。这里的指令就
相关文章
相关标签/搜索