分布式消息队列

时间 2019-11-06

原文原文链接

1、消息队列概述消息队列中间件是分布式系统中重要的组件，主要解决应用耦合，异步消息，流量削锋等问题。实现高性能，高可用，可伸缩和最终一致性架构。是大型分布式系统不可缺乏的中间件。目前在生产环境，使用较多的消息队列有ActiveMQ，RabbitMQ，ZeroMQ，Kafka，MetaMQ，RocketMQ等。前端

2、消息队列应用场景如下介绍消息队列在实际应用中经常使用的使用场景。java

异步处理，应用解耦，流量削锋和消息通信四个场景。node

2.1异步处理场景说明：用户注册后，须要发注册邮件和注册短信。算法

传统的作法有两种数据库

1.串行的方式；编程

2.并行方式。服务器

（1）串行方式：将注册信息写入数据库成功后，发送注册邮件，再发送注册短信。以上三个任务所有完成后，返回给客户端。网络

（2）并行方式：将注册信息写入数据库成功后，发送注册邮件的同时，发送注册短信。以上三个任务完成后，返回给客户端。与串行的差异是，并行的方式能够提升处理的时间。session

假设三个业务节点每一个使用50毫秒钟，不考虑网络等其余开销，则串行方式的时间是150毫秒，并行的时间多是100毫秒。由于CPU在单位时间内处理的请求数是必定的，假设CPU1秒内吞吐量是100次。则串行方式1秒内CPU可处理的请求量是7次（1000/150）。并行方式处理的请求量是10次（1000/100）。小结：如以上案例描述，传统的方式系统的性能（并发量，吞吐量，响应时间）会有瓶颈。如何解决这个问题呢？引入消息队列，将不是必须的业务逻辑，异步处理。改造后的架构以下：数据结构

按照以上约定，用户的响应时间至关因而注册信息写入数据库的时间，也就是50毫秒。注册邮件，发送短信写入消息队列后，直接返回，所以写入消息队列的速度很快，基本能够忽略，所以用户的响应时间多是50毫秒。所以架构改变后，系统的吞吐量提升到每秒20 QPS。

比串行提升了3倍，比并行提升了两倍。

2.2应用解耦场景说明：用户下单后，订单系统须要通知库存系统。传统的作法是，订单系统调用库存系统的接口。以下图：

传统模式的缺点：

1）假如库存系统没法访问，则订单减库存将失败，从而致使订单失败；

2）订单系统与库存系统耦合；如何解决以上问题呢？引入应用消息队列后的方案，以下图：

订单系统：用户下单后，订单系统完成持久化处理，将消息写入消息队列，返回用户订单下单成功。
库存系统：订阅下单的消息，采用拉/推的方式，获取下单信息，库存系统根据下单信息，进行库存操做。
假如：在下单时库存系统不能正常使用。也不影响正常下单，由于下单后，订单系统写入消息队列就再也不关心其余的后续操做了。实现订单系统与库存系统的应用解耦。

2.3流量削锋流量削锋也是消息队列中的经常使用场景，通常在秒杀或团抢活动中使用普遍。

应用场景：秒杀活动，通常会由于流量过大，致使流量暴增，应用挂掉。为解决这个问题，通常须要在应用前端加入消息队列。

能够控制活动的人数；
能够缓解短期内高流量压垮应用；

用户的请求，服务器接收后，首先写入消息队列。假如消息队列长度超过最大数量，则直接抛弃用户请求或跳转到错误页面；
秒杀业务根据消息队列中的请求信息，再作后续处理。

2.4日志处理日志处理是指将消息队列用在日志处理中，好比Kafka的应用，解决大量日志传输的问题。架构简化以下：

日志采集客户端，负责日志数据采集，定时写受写入Kafka队列；
Kafka消息队列，负责日志数据的接收，存储和转发；
日志处理应用：订阅并消费kafka队列中的日志数据；

如下是新浪kafka日志处理应用案例：

(1)Kafka：接收用户日志的消息队列。

(2)Logstash：作日志解析，统一成JSON输出给Elasticsearch。

(3)Elasticsearch：实时日志分析服务的核心技术，一个schemaless，实时的数据存储服务，经过index组织数据，兼具强大的搜索和统计功能。

(4)Kibana：基于Elasticsearch的数据可视化组件，超强的数据可视化能力是众多公司选择ELK stack的重要缘由。

2.5消息通信消息通信是指，消息队列通常都内置了高效的通讯机制，所以也能够用在纯的消息通信。好比实现点对点消息队列，或者聊天室等。

点对点通信：

客户端A和客户端B使用同一队列，进行消息通信。聊天室通信：

客户端A，客户端B，客户端N订阅同一主题，进行消息发布和接收。实现相似聊天室效果。

以上实际是消息队列的两种消息模式，点对点或发布订阅模式。模型为示意图，供参考。

3、消息中间件示例

3.1电商系统

消息队列采用高可用，可持久化的消息中间件。好比Active MQ，Rabbit MQ，Rocket Mq。

（1）应用将主干逻辑处理完成后，写入消息队列。消息发送是否成功能够开启消息的确认模式。（消息队列返回消息接收成功状态后，应用再返回，这样保障消息的完整性）

（2）扩展流程（发短信，配送处理）订阅队列消息。采用推或拉的方式获取消息并处理。

（3）消息将应用解耦的同时，带来了数据一致性问题，能够采用最终一致性方式解决。好比主数据写入数据库，扩展应用根据消息队列，并结合数据库方式实现基于消息队列的后续处理。

3.2日志收集系统

分为Zookeeper注册中心，日志收集客户端，Kafka集群和Storm集群（OtherApp）四部分组成。

Zookeeper注册中心，提出负载均衡和地址查找服务；
日志收集客户端，用于采集应用系统的日志，并将数据推送到kafka队列；

4、JMS消息服务讲消息队列就不得不提JMS 。JMS（JAVA Message Service,java消息服务）API是一个消息服务的标准/规范，容许应用程序组件基于JavaEE平台建立、发送、接收和读取消息。它使分布式通讯耦合度更低，消息服务更加可靠以及异步性。在EJB架构中，有消息bean能够无缝的与JM消息服务集成。在J2EE架构模式中，有消息服务者模式，用于实现消息与应用直接的解耦。

4.1消息模型在JMS标准中，有两种消息模型P2P（Point to Point）,Publish/Subscribe(Pub/Sub)。

4.1.1 P2P模式

P2P模式包含三个角色：消息队列（Queue），发送者(Sender)，接收者(Receiver)。每一个消息都被发送到一个特定的队列，接收者从队列中获取消息。队列保留着消息，直到他们被消费或超时。 P2P的特色

每一个消息只有一个消费者（Consumer）(即一旦被消费，消息就再也不在消息队列中)
发送者和接收者之间在时间上没有依赖性，也就是说当发送者发送了消息以后，无论接收者有没有正在运行，它不会影响到消息被发送到队列
接收者在成功接收消息以后需向队列应答成功

若是但愿发送的每一个消息都会被成功处理的话，那么须要P2P模式。

4.1.2 Pub/sub模式

包含三个角色主题（Topic），发布者（Publisher），订阅者（Subscriber）。多个发布者将消息发送到Topic,系统将这些消息传递给多个订阅者。 Pub/Sub的特色

每一个消息能够有多个消费者
发布者和订阅者之间有时间上的依赖性。针对某个主题（Topic）的订阅者，它必须建立一个订阅者以后，才能消费发布者的消息。
为了消费消息，订阅者必须保持运行的状态。

为了缓和这样严格的时间相关性，JMS容许订阅者建立一个可持久化的订阅。这样，即便订阅者没有被激活（运行），它也能接收到发布者的消息。若是但愿发送的消息能够不被作任何处理、或者只被一个消息者处理、或者能够被多个消费者处理的话，那么能够采用Pub/Sub模型。

4.2消息消费在JMS中，消息的产生和消费都是异步的。对于消费来讲，JMS的消息者能够经过两种方式来消费消息。

（1）同步订阅者或接收者经过receive方法来接收消息，receive方法在接收到消息以前（或超时以前）将一直阻塞；

（2）异步订阅者或接收者能够注册为一个消息监听器。当消息到达以后，系统自动调用监听器的onMessage方法。 JNDI：Java命名和目录接口,是一种标准的Java命名系统接口。能够在网络上查找和访问服务。经过指定一个资源名称，该名称对应于数据库或命名服务中的一个记录，同时返回资源链接创建所必须的信息。 JNDI在JMS中起到查找和访问发送目标或消息来源的做用。

4.3JMS编程模型

(1) ConnectionFactory 建立Connection对象的工厂，针对两种不一样的jms消息模型，分别有QueueConnectionFactory和TopicConnectionFactory两种。能够经过JNDI来查找ConnectionFactory对象。

(2) Destination Destination的意思是消息生产者的消息发送目标或者说消息消费者的消息来源。对于消息生产者来讲，它的Destination是某个队列（Queue）或某个主题（Topic）;对于消息消费者来讲，它的Destination也是某个队列或主题（即消息来源）。因此，Destination实际上就是两种类型的对象：Queue、Topic能够经过JNDI来查找Destination。

(3) Connection Connection表示在客户端和JMS系统之间创建的连接（对TCP/IP socket的包装）。Connection能够产生一个或多个Session。跟ConnectionFactory同样，Connection也有两种类型：QueueConnection和TopicConnection。

(4) Session Session是操做消息的接口。能够经过session建立生产者、消费者、消息等。Session提供了事务的功能。当须要使用session发送/接收多个消息时，能够将这些发送/接收动做放到一个事务中。一样，也分QueueSession和TopicSession。

(5) 消息的生产者消息生产者由Session建立，并用于将消息发送到Destination。一样，消息生产者分两种类型：QueueSender和TopicPublisher。能够调用消息生产者的方法（send或publish方法）发送消息。

(6) 消息消费者消息消费者由Session建立，用于接收被发送到Destination的消息。两种类型：QueueReceiver和TopicSubscriber。可分别经过session的createReceiver(Queue)或createSubscriber(Topic)来建立。固然，也能够session的creatDurableSubscriber方法来建立持久化的订阅者。

(7) MessageListener 消息监听器。若是注册了消息监听器，一旦消息到达，将自动调用监听器的onMessage方法。EJB中的MDB（Message-Driven Bean）就是一种MessageListener。深刻学习JMS对掌握JAVA架构，EJB架构有很好的帮助，消息中间件也是大型分布式系统必须的组件。本次分享主要作全局性介绍，具体的深刻须要你们学习，实践，总结，领会。

5、经常使用消息队列通常商用的容器，好比WebLogic，JBoss，都支持JMS标准，开发上很方便。但免费的好比Tomcat，Jetty等则须要使用第三方的消息中间件。

本部份内容介绍经常使用的消息中间件（Active MQ,Rabbit MQ，Zero MQ,Kafka）以及他们的特色。

5.1 ActiveMQ ActiveMQ 是Apache出品，最流行的，能力强劲的开源消息总线。

ActiveMQ 是一个彻底支持JMS1.1和J2EE 1.4规范的 JMS Provider实现，尽管JMS规范出台已是好久的事情了，可是JMS在当今的J2EE应用中间仍然扮演着特殊的地位。

ActiveMQ特性以下：

⒈ 多种语言和协议编写客户端。语言: Java,C,C++,C#,Ruby,Perl,Python,PHP。应用协议： OpenWire,Stomp REST,WS Notification,XMPP,AMQP

⒉ 彻底支持JMS1.1和J2EE 1.4规范（持久化，XA消息，事务)

⒊ 对Spring的支持，ActiveMQ能够很容易内嵌到使用Spring的系统里面去，并且也支持Spring2.0的特性

⒋ 经过了常见J2EE服务器（如 Geronimo,JBoss 4,GlassFish,WebLogic)的测试，其中经过JCA 1.5 resource adaptors的配置，可让ActiveMQ能够自动的部署到任何兼容J2EE 1.4 商业服务器上

⒌ 支持多种传送协议：in-VM,TCP,SSL,NIO,UDP,JGroups,JXTA

⒍ 支持经过JDBC和journal提供高速的消息持久化

⒎ 从设计上保证了高性能的集群，客户端-服务器，点对点

⒏ 支持Ajax

⒐ 支持与Axis的整合

⒑ 能够很容易得调用内嵌JMS provider，进行测试

5.2 RabbitMQ RabbitMQ是流行的开源消息队列系统，用erlang语言开发。

RabbitMQ是AMQP（高级消息队列协议）的标准实现。

支持多种客户端，如：Python、Ruby、.NET、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等，支持AJAX，持久化。用于在分布式系统中存储转发消息，在易用性、扩展性、高可用性等方面表现不俗。

几个重要概念：

Broker：简单来讲就是消息队列服务器实体。

Exchange：消息交换机，它指定消息按什么规则，路由到哪一个队列。

Queue：消息队列载体，每一个消息都会被投入到一个或多个队列。

Binding：绑定，它的做用就是把exchange和queue按照路由规则绑定起来。

Routing Key：路由关键字，exchange根据这个关键字进行消息投递。

vhost：虚拟主机，一个broker里能够开设多个vhost，用做不一样用户的权限分离。

producer：消息生产者，就是投递消息的程序。

consumer：消息消费者，就是接受消息的程序。

channel：消息通道，在客户端的每一个链接里，可创建多个channel，每一个channel表明一个会话任务。

消息队列的使用过程，以下：

（1）客户端链接到消息队列服务器，打开一个channel。

（2）客户端声明一个exchange，并设置相关属性。

（3）客户端声明一个queue，并设置相关属性。

（4）客户端使用routing key，在exchange和queue之间创建好绑定关系。

（5）客户端投递消息到exchange。 exchange接收到消息后，就根据消息的key和已经设置的binding，进行消息路由，将消息投递到一个或多个队列里。

5.3 ZeroMQ 号称史上最快的消息队列，它实际相似于Socket的一系列接口，

他跟Socket的区别是：普通的socket是端到端的（1:1的关系），而ZMQ倒是能够N：M 的关系，人们对BSD套接字的了解较多的是点对点的链接，

点对点链接须要显式地创建链接、销毁链接、选择协议（TCP/UDP）和处理错误等，而ZMQ屏蔽了这些细节，让你的网络编程更为简单。ZMQ用于node与node间的通讯，node能够是主机或者是进程。

引用官方的说法： “ZMQ(如下ZeroMQ简称ZMQ)是一个简单好用的传输层，像框架同样的一个socket library，他使得Socket编程更加简单、简洁和性能更高。是一个消息处理队列库，可在多个线程、内核和主机盒之间弹性伸缩。ZMQ的明确目标是“成为标准网络协议栈的一部分，以后进入Linux内核”。

如今还未看到它们的成功。可是，它无疑是极具前景的、而且是人们更加须要的“传统”BSD套接字之上的一层封装。

ZMQ让编写高性能网络应用程序极为简单和有趣。” 特色是：

高性能，非持久化；
跨平台：支持Linux、Windows、OS X等。
多语言支持； C、C++、Java、.NET、Python等30多种开发语言。
可单独部署或集成到应用中使用；
可做为Socket通讯库使用。

与RabbitMQ相比，ZMQ并不像是一个传统意义上的消息队列服务器，事实上，它也根本不是一个服务器，更像一个底层的网络通信库，

在Socket API之上作了一层封装，将网络通信、进程通信和线程通信抽象为统一的API接口。支持“Request-Reply “，”Publisher-Subscriber“，”Parallel Pipeline”三种基本模型和扩展模型。

ZeroMQ高性能设计要点：

一、无锁的队列模型对于跨线程间的交互（用户端和session）之间的数据交换通道pipe，采用无锁的队列算法CAS；在pipe两端注册有异步事件，在读或者写消息到pipe的时，会自动触发读写事件。

二、批量处理的算法对于传统的消息处理，每一个消息在发送和接收的时候，都须要系统的调用，这样对于大量的消息，系统的开销比较大，zeroMQ对于批量的消息，进行了适应性的优化，能够批量的接收和发送消息。

三、多核下的线程绑定，无须CPU切换区别于传统的多线程并发模式，信号量或者临界区， zeroMQ充分利用多核的优点，每一个核绑定运行一个工做者线程，避免多线程之间的CPU切换开销。

5.4 Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统，它能够处理消费者规模的网站中的全部动做流数据。这种动做（网页浏览，搜索和其余用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据一般是因为吞吐量的要求而经过处理日志和日志聚合来解决。

对于像Hadoop的同样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是经过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了经过集群机来提供实时的消费。 Kafka是一种高吞吐量的分布式发布订阅消息系统，有以下特性：

经过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即便数以TB的消息存储也可以保持长时间的稳定性能。（文件追加的方式写入数据，过时的数据按期删除）
高吞吐量：即便是很是普通的硬件Kafka也能够支持每秒数百万的消息。
支持经过Kafka服务器和消费机集群来分区消息。
支持Hadoop并行数据加载。

Kafka相关概念

Broker

Kafka集群包含一个或多个服务器，这种服务器被称为broker[5]

Topic

每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不一样Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic便可生产或消费数据而没必要关心数据存于何处）

Partition

Parition是物理上的概念，每一个Topic包含一个或多个Partition.

Producer

负责发布消息到Kafka broker

Consumer

消息消费者，向Kafka broker读取消息的客户端。

Consumer Group

每一个Consumer属于一个特定的Consumer Group（可为每一个Consumer指定group name，若不指定group name则属于默认的group）。通常应用在大数据日志处理或对实时性（少许延迟），可靠性（少许丢数据）要求稍低的场景使用。