由Word Count入门Apache Storm

时间 2019-11-11

标签 word count 入门 apache storm 栏目 Microsoft Office 繁體版

原文原文链接

Storm是一个分布式流处理框架。算法

入门

Word count做为分布式的"hello world"，这里由word count引出Storm的topology概念。编程

问题

有一系列DNS查询，须要统计被查询最屡次的域名框架

从函数式编程的角度来说，能够把算法概括为下图分布式

即为
h ( g ( f (data) ) )函数式编程

转换为Storm topology函数

概念

Topology：拓扑结构oop
Spout：spout做为整个拓扑的数据源，一个topology中可能存在多个数据源。上图中即为提供DNS查询的数据源spa
Bolt： bolt是topology中的基本数据处理单元。上图中，即为f,g,h三个函数。.net
Tuple: 基本数据单元。例（1.1.1.1， "foo.com"）orm
Stream: 无止境一串的tuple流 ... (2.2.2.2, “bar.net”)， (3.3.3.3, “foo.com”)， (4.4.4.4, “foo.com”) ...

Stream Grouping 经常使用分组方式

Shuffle grouping
随机分配tuple给后续节点

Fields grouping
根据定义的fields字段，将相同key值的字段分配给同一后续节点。经常使用于统计同一key值的数量

All grouping

Storm和Hadoop的区别

Hadoop主要用来处理batch（批处理）数据， Storm主要用来处理Stream（流式）数据。主要区别以下图所示：

相关文章

相关标签/搜索

Storm 入门指南

Microsoft Office

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<