大数据流式计算能够普遍应用于金融银行、互联网、物联网等诸多领域,如股市实时分析、插入式广告投放、交通流量实时预警等场景,主要是为了知足该场景下的实时应用需求。数据每每以数据流的形式持续到达数据计算系统,计算功能的实现是经过有向任务图的形式进行描述,数据流在有向任务图中流事后,会实时产生相应的计算结果。整个数据流的处理过程每每是在毫秒级的时间内完成的。微信
一般状况下,大数据流式计算场景具备如下鲜明特征。网络
1. 在流式计算环境中,数据是以元组为单位,以连续数据流的形态,持续地到达大数据流式计算平台。数据并非一次所有可用,不可以一次获得全量数据,只能在不一样的时间点,以增量的方式,逐步获得相应数据。app
2. 数据源每每是多个,在进行数据流重放的过程当中,数据流中各个元组间的相对顺序是不能控制的。也就是说,在数据流重放过程当中,获得彻底相同的数据流(相同的数据元组和相同的元组顺序)是很困难的,甚至是不可能的。运维
3. 数据流的流速是高速的,且随着时间在不断动态变化。这种变化主要体如今两个方面,一个方面是数据流流速大小在不一样时间点的变化,这就须要系统能够弹性、动态地适应数据流的变化,实现系统中资源、能耗的高效利用;另外一方面是数据流中各个元组内容(语义)在不一样时间点的变化,即概念漂移,这就须要处理数据流的有向任务图能够及时识别、动态更新和有效适应这种语义层面上的变化。post
4. 实时分析和处理数据流是相当重要的,在数据流中,其生命周期的时效性每每很短,数据的时间价值也更加剧要。全部数据流到来后,均须要实时处理,并实时产生相应结果,进行反馈,全部的数据元组也仅会被处理一次。虽然部分数据可能以批量的形式被存储下来,但也只是为了知足后续其余场景下的应用需求。学习
5. 数据流是无穷无尽的,只要有数据源在不断产生数据,数据流就会持续不断地到来。这也就须要流式计算系统永远在线运行,时刻准备接收和处理到来的数据流。在线运行是流式计算系统的一个常态,一旦系统上线后,全部对该系统的调整和优化也将在在线环境中开展和完成。大数据
6. 多个不一样应用会经过各自的有向任务图进行表示,并将被部署在一个大数据计算平台中,如图1所示,这就须要整个计算平台能够有效地为各个有向任务图分配合理资源,并保证知足用户服务级目标。同时各个资源间须要公平地竞争资源、合理地共享资源,特别是要知足不一样时间点各应用间系统资源的公平使用。优化
相关阅读:ui
用于推荐系统评估的概念与指标
人工智能
如欲了解更多,欢迎搜索并关注先荐微信公众号(ID:dsfsxj)。
本帐号为第四范式智能推荐产品先荐的官方帐号。帐号立足于计算机领域,特别是人工智能相关的前沿研究,旨在把更多与人工智能相关的知识分享给公众,从专业的角度促进公众对人工智能的理解;同时也但愿为人工智能相关人员提供一个讨论、交流、学习的开放平台,从而早日让每一个人都享受到人工智能创造的价值。