Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType如今已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。php
Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工做者集群的另外一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流作连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。 Storm的主工程师Nathan Marz表示:node
Storm能够方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm之于实时处理,就比如Hadoop之于批处理。Storm保证每一个消息都会获得处理,并且它很快——在一个小集群中,每秒能够处理数以百万计的消息。更棒的是你可使用任意编程语言来作开发。
Storm的主要特色以下:git
Storm集群由一个主节点和多个工做节点组成。主节点运行了一个名为“Nimbus”的守护进程,用于分配代码、布置任务及故障检测。每一个工做节 点都运行了一个名为“Supervisor”的守护进程,用于监听工做,开始并终止工做进程。Nimbus和Supervisor都能快速失败,并且是无 状态的,这样一来它们就变得十分健壮,二者的协调工做是由Apache ZooKeeper来完成的。github
Storm的术语包括Stream、Spout、Bolt、Task、Worker、Stream Grouping和Topology。Stream是被处理的数据。Sprout是数据源。Bolt处理数据。Task是运行于Spout或Bolt中的 线程。Worker是运行这些线程的进程。Stream Grouping规定了Bolt接收什么东西做为输入数据。数据能够随机分配(术语为Shuffle),或者根据字段值分配(术语为Fields),或者 广播(术语为All),或者老是发给一个Task(术语为Global),也能够不关心该数据(术语为None),或者由自定义逻辑来决定(术语为 Direct)。Topology是由Stream Grouping链接起来的Spout和Bolt节点网络。在Storm Concepts页面里对这些术语有更详细的描述。数据库
能够和Storm相提并论的系统有Esper、Streambase、HStreaming和Yahoo S4。其中和Storm最接近的就是S4。二者最大的区别在于Storm会保证消息获得处理。这些系统中有的拥有内建数据存储层,这是Storm所没有的,若是须要持久化,可使用一个相似于Cassandra或Riak这样的外部数据库。apache
入门的最佳途径是阅读GitHub上的官方《Storm Tutorial》。 其中讨论了多种Storm概念和抽象,提供了范例代码以便你能够运行一个Storm Topology。开发过程当中,能够用本地模式来运行Storm,这样就能在本地开发,在进程中测试Topology。一切就绪后,以远程模式运行 Storm,提交用于在集群中运行的Topology。Maven用户可使用clojars.org提供的Storm依赖,地址是 http://clojars.org/repo。编程
要运行Storm集群,你须要Apache Zookeeper、ØMQ、JZMQ、Java 6和Python 2.6.6。ZooKeeper用于管理集群中的不一样组件,ØMQ是内部消息系统,JZMQ是ØMQ的Java Binding。有个名为storm-deploy的子项目,能够在AWS上一键部署Storm集群。关于详细的步骤,能够阅读Storm Wiki上的《Setting up a Storm cluster》。服务器
欲了解Storm的更多信息,请访问官方Storm Wiki。你也能够加入Storm邮件列表和freenode上的Storm IRC(#storm-user)。网络
做者 Bienvenido David IIIsession