实时计算，流数据处理系统简介与简单分析

时间 2019-11-16

标签实时计算数据处理系统简介简单分析繁體版

原文原文链接

转自:http://www.csdn.net/article/2014-06-12/2820196-Stormhtml

摘要：实时计算通常都是针对海量数据进行的，通常要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。今天这篇文章详细介绍了实时计算，流数据处理系统简介与简单分析。前端

编者按：互联网领域的实时计算通常都是针对海量数据进行的，除了像非实时计算的需求（如计算结果准确）之外，实时计算最重要的一个需求是可以实时响应计算结果，通常要求为秒级。实时计算的今天，业界都没有一个准确的定义，什么叫实时计算？什么不是？今天这篇文章详细介绍了实时计算，流数据处理系统简介与简单分析。mysql

如下为做者原文：

一．实时计算的概念git

实时计算通常都是针对海量数据进行的，通常要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。github

主要应用的场景：sql

1) 数据源是实时的不间断的，要求用户的响应时间也是实时的（好比对于大型网站的流式数据：网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等，实时的数据计算和分析能够动态实时地刷新用户访问数据，展现网站实时流量的变化状况，分析天天各小时的流量和用户分布状况）数据库

2) 数据量大且没法或不必预算，但要求对用户的响应时间是实时的。好比说：apache

昨天来自每一个省份不一样性别的访问量分布，昨天来自每一个省份不一样性别不一样年龄不一样职业不一样名族的访问量分布。后端

二．实时计算的相关技术缓存

主要分为三个阶段（大可能是日志流）:

数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段

下面具体针对上面三个阶段详细介绍下

1）数据实时采集：

需求：功能上保证能够完整的收集到全部日志数据，为实时应用提供实时数据；响应时间上要保证明时性、低延迟在1秒左右；配置简单，部署容易；系统稳定可靠等。

目前的产品：Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume，淘宝开源的TimeTunnel、Hadoop的Chukwa等，都可以知足每秒数百MB的日志数据采集和传输需求。他们都是开源项目。

2）数据实时计算

在流数据不断变化的运动过程当中实时地进行分析，捕捉到可能对用户有用的信息，并把结果发送出去。

实时计算目前的主流产品：

Yahoo的S4：S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统，Yahoo开发S4系统，主要是为了解决：搜索广告的展示、处理用户的点击反馈。
Twitter的Storm：是一个分布式的、容错的实时计算系统。可用于处理消息和更新数据库（流处理），在数据流上进行持续查询，并以流的形式返回结果到客户端（持续计算），并行化一个相似实时查询的热点查询（分布式的RPC）。
Facebook 的Puma：Facebook使用puma和HBase相结合来处理实时数据，另外Facebook发表一篇利用HBase/Hadoop进行实时数据处理的论文（ApacheHadoop Goes Realtime at Facebook），经过一些实时性改造，让批处理计算平台也具有实时计算的能力。

关于这三个产品的具体介绍架构分析：http://www.kuqin.com/system-analysis/20120111/317322.html

下面是S4和Storm的详细对比

其余的产品：

早期的：IBM的Stream Base、 Borealis、Hstreaming、Esper

4. 淘宝的实时计算、流式处理

1) 银河流数据处理平台：通用的流数据实时计算系统，以实时数据产出的低延迟、高吞吐和复用性为初衷和目标，采用actor模型构建分布式流数据计算框架（底层基于akka），功能易扩展、部分容错、数据和状态可监控。银河具备处理实时流数据（如TimeTunnel收集的实时数据）和静态数据（如本地文件、HDFS文件）的能力，可以提供灵活的实时数据输出，并提供自定义的数据输出接口以便扩展实时计算能力。银河目前主要是为魔方提供实时的交易、浏览和搜索日志等数据的实时计算和分析。

2) 基于Storm的流式处理，统计计算、持续计算、实时消息处理。

在淘宝，Storm被普遍用来进行实时日志处理，出如今实时统计、实时风控、实时推荐等场景中。通常来讲，咱们从类kafka的metaQ或者基于HBase的timetunnel中读取实时日志消息，通过一系列处理，最终将处理结果写入到一个分布式存储中，提供给应用程序访问。咱们天天的实时消息量从几百万到几十亿不等，数据总量达到TB级。对于咱们来讲，Storm每每会配合分布式存储服务一块儿使用。在咱们正在进行的个性化搜索实时分析项目中，就使用了timetunnel +HBase + Storm + UPS的架构，天天处理几十亿的用户日志信息，从用户行为发生到完成分析延迟在秒级。

3) 利用Habase实现的Online应用

4）实时查询服务

半内存：使用Redis、Memcache、MongoDB、BerkeleyDB等内存数据库提供数据实时查询服务，由这些系统进行持久化操做。
全磁盘：使用HBase等以分布式文件系统（HDFS）为基础的NoSQL数据库，对于key-value引擎，关键是设计好key的分布。
全内存：直接提供数据读取服务，按期dump到磁盘或数据库进行持久化。

关于实时计算流数据分析应用举例：

对于电子商务网站上的店铺：

1）实时展现一个店铺的到访顾客流水信息，包括访问时间、访客姓名、访客地理位置、访客IP、访客正在访问的页面等信息；

2）显示某个到访顾客的全部历史来访记录，同时实时跟踪显示某个访客在一个店铺正在访问的页面等信息；

3）支持根据访客地理位置、访问页面、访问时间等多种维度下的实时查询与分析。

下面对Storm详细介绍下：

总体架构图

整个数据处理流程包括四部分：

第一部分是数据接入该部分从前端业务系统获取数据。

第二部分是最重要的Storm 实时处理部分，数据从接入层接入，通过实时处理后传入数据落地层；

第三部分为数据落地层，该部分指定了数据的落地方式；

第四部分元数据管理器。

数据接入层

该部分有多种数据收集方式，包括使用消息队列（MetaQ），直接经过网络Socket传输数据，前端业务系统专有数据采集API，对Log问价定时监控。(注：有时候咱们的数据源是已经保存下来的log文件，那Spout就必须监控Log文件的变化，及时将变化部分的数据提取写入Storm中，这很难作到彻底实时性。)

Storm实时处理层

首先咱们经过一个 Storm 和Hadoop的对比来了解Storm中的基本概念。

(Storm关注的是数据屡次处理一次写入，而Hadoop关注的是数据一次写入，屡次处理使用（查询）。Storm系统运行起来后是持续不断的，而Hadoop每每只是在业务须要时调用数据。二者关注及应用的方向不同。)

1. Nimbus：负责资源分配和任务调度。

2. Supervisor：负责接受nimbus分配的任务，启动和中止属于本身管理的worker进程。

3. Worker：运行具体处理组件逻辑的进程。

4. Task：worker中每个spout/bolt的线程称为一个task. 在Storm0.8以后，task再也不与物理线程对应，同一个spout/bolt的task可能会共享一个物理线程，该线程称为executor。

具体业务需求：条件过滤、中间值计算、求topN、推荐系统、分布式RPC、热度统计

数据落地层：

MetaQ

如图架构所示，Storm与MetaQ是有一条虚线相连的，部分数据在通过实时处理以后须要写入MetaQ之中，由于后端业务系统须要从MetaQ中获取数据。这严格来讲不算是数据落地，由于数据没有实实在在写入磁盘中持久化。

Mysql

数据量不是很是大的状况下可使用Mysql做为数据落地的存储对象。Mysql对数据后续处理也是比较方便的，且网络上对Mysql的操做也是比较多的，在开发上代价比较小，适合中小量数据存储。

HDFS

HDFS及基于Hadoop的分布式文件系统。许多日志分析系统都是基于HDFS搭建出来的，因此开发Storm与HDFS的数据落地接口将颇有必要。例如将大批量数据实时处理以后存入Hive中，提供给后端业务系统进行处理，例如日志分析，数据挖掘等等。

Lustre

Lustre做为数据落地的应用场景是，数据量很大，且处理后目的是做为归档处理。这种情形，Lustre可以为数据提供一个比较大（至关大）的数据目录，用于数据归档保存。

元数据管理器

元数据管理器的设计目的是，整个系统须要一个统一协调的组件，指导前端业务系统的数据写入，通知实时处理部分数据类型及其余数据描述，及指导数据如何落地。元数据管理器贯通整个系统，是比较重要的组成部分。元数据设计可使用mysql存储元数据信息，结合缓存机制开源软件设计而成。