在平常生活中,咱们一般会先把数据存储在一张表中,而后再进行加工、分析,这里就涉及到一个时效性的问题。若是咱们处理以年、月为单位的级别的数据,那么多数据的实时性要求并不高;但若是咱们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,若是咱们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,以后在进行分析,就可能没法知足时效性的要求。数据库
大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不一样的大数据应用场景。微信
流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而下降,所以必须实时计算给出秒级响应。流式计算,顾名思义,就是对数据流进行处理,是实时计算。批量计算则统一收集数据,存储到数据库中,而后对数据进行批量处理的数据计算方式。主要体如今如下几个方面:网络
一、数据时效性不一样:流式计算实时、低延迟, 批量计算非实时、高延迟。框架
二、数据特征不一样:流式计算的数据通常是动态的、没有边界的,而批处理的数据通常则是静态数据。运维
三、应用场景不一样:流式计算应用在实时场景,时效性要求比较高的场景,如实时推荐、业务监控...批量计算通常说批处理,应用在实时性要求不高、离线计算的场景下,数据分析、离线报表等。分布式
四、运行方式不一样,流式计算的任务持续进行的,批量计算的任务则一次性完成。post
第一类,商业级流式计算平台(IBM InfoSphere Streams、IBM StreamBase等);学习
第二类,开源流式计算框架(Twitter Storm、S4等);大数据
第三类,公司为支持自身业务开发的流式计算框架。网站
Strom:Twitter 开发的第一代流处理系统。
Heron:Twitter 开发的第二代流处理系统。
Spark streaming:是Spark核心API的一个扩展,能够实现高吞吐量的、具有容错机制的实时流数据的处理。
Flink:是一个针对流数据和批数据的分布式处理引擎。
Apache Kafka:由Scala写成。该项目的目标是为处理实时数据提供一个统1、高通量、低等待的平台。
流式处理能够用于两种不一样场景: 事件流和持续计算。
一、事件流
事件流具可以持续产生大量的数据,这类数据最先出现与传统的银行和股票交易领域,也在互联网监控、无线通讯网等领域出现、须要以近实时的方式对更新数据流进行复杂分析如趋势分析、预测、监控等。简单来讲,事件流采用的是查询保持静态,语句是固定的,数据不断变化的方式。
二、持续计算
好比对于大型网站的流式数据:网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等,实时的数据计算和分析能够动态实时地刷新用户访问数据,展现网站实时流量的变化状况,分析天天各小时的流量和用户分布状况;
好比金融行业,毫秒级延迟的需求相当重要。一些须要实时处理数据的场景也能够应用Storm,好比根据用户行为产生的日志文件进行实时分析,对用户进行商品的实时推荐等。
经过大数据处理咱们获取了数据的价值,可是数据的价值是恒定不变的吗?显然不是,一些数据在事情发生后不久就有了更高的价值,并且这种价值会随着时间的推移而迅速减小。流处理的关键优点在于它可以更快地提供洞察力,一般在毫秒到秒之间。
流式计算的价值在于业务方可在更短的时间内挖掘业务数据中的价值,并将这种低延迟转化为竞争优点。比方说,在使用流式计算的推荐引擎中,用户的行为偏好能够在更短的时间内反映在推荐模型中,推荐模型可以以更低的延迟捕捉用户的行为偏好以提供更精准、及时的推荐。
流式计算能作到这一点的缘由在于,传统的批量计算须要进行数据积累,在积累到必定量的数据后再进行批量处理;而流式计算能作到数据随到随处理,有效下降了处理延时。
相关阅读:
如欲了解更多,欢迎搜索并关注先荐微信公众号(ID:dsfsxj)。
本帐号为第四范式智能推荐产品先荐的官方帐号。帐号立足于计算机领域,特别是人工智能相关的前沿研究,旨在把更多与人工智能相关的知识分享给公众,从专业的角度促进公众对人工智能的理解;同时也但愿为人工智能相关人员提供一个讨论、交流、学习的开放平台,从而早日让每一个人都享受到人工智能创造的价值。