Spark Streaming学习笔记

Spark Streaming是构建在Spark基础上的一个实时数据流处理框架。能够对流式数据进行可扩展的、高吞吐的、高容错的实时处理。 批生成间隔(batch interval) 数据采集确是实时的、逐条进行的,而处理数据的单位是一批,因此需要确定一个时间间隔。系统对这个间隔内获得的数据统一操作,称为批生成时间间隔,决定了作业提交的频率,是系统调优的重要参数。 Dstream(Discretiz
相关文章
相关标签/搜索