用消息中间件犹如小马过河,选择合适的才最重要,这须要贴合自身的业务需求,技术服务于业务。具体在选择上可从下面功能、性能、可靠性和可用性、运维管理、社区和生态、团队技术栈等维度来进行筛选。html
具体技术选型指标1:功能ios
首要的就是功能维度,这个直接决定了你可否最大程度上的实现开箱即用,进而缩短项目周期、下降成本等。若是一款消息中间件的功能达不到想要的功能,那么就须要进行二次开发,这样会增长项目的技术难度、复杂度以及增大项目周期等。程序员
功能维度又能够划分个多个子维度,大体能够分为如下这些。编程
具体技术选型指标2:性能缓存
功能维度是消息中间件选型中的一个重要的参考维度,但这并非惟一的维度。有时候性能比功能还要重要,何况性能和功能不少时候是相悖的,鱼和熊掌不可兼得,Kafka 在开启幂等、事务功能的时候会使其性能下降,RabbitMQ 在开启 rabbitmq_tracing 插件的时候也会极大的影响其性能。消息中间件的性能通常是指其吞吐量,虽然从功能维度上来讲,RabbitMQ 的优点要大于 Kafka,可是 Kafka 的吞吐量要比 RabbitMQ 高出 1 至 2 个数量级,通常 RabbitMQ 的单机 QPS 在万级别以内,而 Kafka 的单机 QPS 能够维持在十万级别,甚至能够达到百万级。安全
消息中间件的吞吐量始终会受到硬件层面的限制。就以网卡带宽为例,若是单机单网卡的带宽为 1Gbps,若是要达到百万级的吞吐,那么消息体大小不得超过 (1Gb/8)/100W,即约等于 134B,换句话说若是消息体大小超过 134B,那么就不可能达到百万级别的吞吐。这种计算方式一样能够适用于内存和磁盘。性能优化
时延做为性能维度的一个重要指标,却每每在消息中间件领域所被忽视,由于通常使用消息中间件的场景对时效性的要求并非很高,若是要求时效性彻底能够采用 RPC 的方式实现。消息中间件具有消息堆积的能力,消息堆积越大也就意味着端到端的时延也就越长,与此同时延时队列也是某些消息中间件的一大特点。那么为何还要关注消息中间件的时延问题呢?消息中间件可以解耦系统,对于一个时延较低的消息中间件而言,它可让上游生产者发送消息以后能够迅速的返回,也可让消费者更加快速的获取到消息,在没有堆积的状况下可让总体上下游的应用之间的级联动做更加高效,虽然不建议在时效性很高的场景下使用消息中间件,可是若是所使用的消息中间件的时延方面比较优秀,那么对于总体系统的性能将会是一个不小的提高。服务器
具体技术选型指标3:可靠性 + 可用性网络
消息丢失是使用消息中间件时所不得不面对的一个同点,其背后消息可靠性也是衡量消息中间件好坏的一个关键因素。尤为是在金融支付领域,消息可靠性尤其重要。然而说到可靠性必然要说到可用性,注意这二者之间的区别,消息中间件的可靠性是指对消息不丢失的保障程度;而消息中间件的可用性是指无端障运行的时间百分比,一般用几个 9 来衡量。架构
不少时候,对于可靠性方面也容易存在一个误区: 想要找到一个产品来保证消息的绝对可靠,很不幸的是这世界上没有绝对的东西,只能说尽可能趋于完美 。想要尽量的保障消息的可靠性也并不是单单只靠消息中间件自己,还要依赖于上下游,须要从生产端、服务端和消费端这 3 个维度去努力保证,《RabbitMQ 消息可靠性分析》这篇文章就从这 3 个维度去分析了 RabbitMQ 的可靠性。从狭义的角度来讲,分布式系统架构是一致性协议理论的应用实现,对于消息可靠性和可用性而言也能够追溯到消息中间件背后的一致性协议。对于 Kafka 而言,其采用的是相似 PacificA 的一致性协议,经过 ISR(In-Sync-Replica)来保证多副本之间的同步,而且支持强一致性语义(经过 acks 实现)。对应的 RabbitMQ 是经过镜像环形队列实现多副本及强一致性语义的。多副本能够保证在 master 节点宕机异常以后能够提高 slave 做为新的 master 而继续提供服务来保障可用性。Kafka 设计之初是为日志处理而生,给人们留下了数据可靠性要求不高的不良印象,可是随着版本的升级优化,其可靠性获得极大的加强,详细能够参考 KIP101。就目前而言,在金融支付领域使用 RabbitMQ 居多,而在日志处理、大数据等方面 Kafka 使用居多,随着 RabbitMQ 性能的不断提高和 Kafka 可靠性的进一步加强,相信彼此都能在之前不擅长的领域分得一杯羹。
同步刷盘是加强一个组件可靠性的有效方式,消息中间件也不例外,Kafka 和 RabbitMQ 均可以支持同步刷盘,可是笔者对同步刷盘有必定的疑问:绝大多数情景下,一个组件的可靠性不该该由同步刷盘这种极其损耗性能的操做来保障,而是采用多副本的机制来保证。
这里还要说起的一个方面是扩展能力,这里我狭隘地将此概括到可用性这一维度,消息中间件的扩展能力可以加强其用可用能力及范围,好比前面提到的 RabbitMQ 支持多种消息协议,这个就是基于其插件化的扩展实现。还有从集群部署上来说,归功于 Kafka 的水平扩展能力,其基本上能够达到线性容量提高的水平,在 LinkedIn 实践介绍中就说起了有部署超过千台设备的 Kafka 集群。
具体技术选型指标4:运维管理
在消息中间件的使用过程当中不免会出现各式各样的异常状况,有客户端的,也有服务端的,那么怎样及时有效的进行监测及修复。业务线流量有峰值又低谷,尤为是电商领域,那么怎样前进行有效的容量评估,尤为是大促期间?脚踢电源、网线被挖等事件层出不穷,如何有效的作好异地多活?这些都离不开消息中间件的衍生产品——运维管理。
运维管理也能够进行进一步的细分,好比:申请、审核、监控、告警、管理、容灾、部署等。
申请、审核很好理解,在源头对资源进行管控,既能够进行有效校订应用方的使用规范,配和监控也能够作好流量统计与流量评估工做,通常申请、审核与公司内部系统交融性较大,不适合使用开源类的产品。
监控、告警也比较好理解,对消息中间件的使用进行全方位的监控,便可觉得系统提供基准数据,也能够在检测到异常的状况配合告警,以便运维、开发人员的迅速介入。除了通常的监控项(好比硬件、GC 等)以外,对于消息中间件还须要关注端到端时延、消息审计、消息堆积等方面。对于 RabbitMQ 而言,最正统的监控管理工具莫过于 rabbitmq_management 插件了,可是社区内还有 AppDynamics, Collectd, DataDog, Ganglia, Munin, Nagios, New Relic, Prometheus, Zenoss 等多种优秀的产品。Kafka 在此方面也绝不逊色,好比:Kafka Manager, Kafka Monitor, Kafka Offset Monitor, Burrow, Chaperone, Confluent Control Center 等产品,尤为是 Cruise 还能够提供自动化运维的功能。
无论是扩容、降级、版本升级、集群节点部署、仍是故障处理都离不开管理工具的应用,一个配套完备的管理工具集能够在遇到变动时作到事半功倍。故障可大可小,通常是一些应用异常,也能够是机器掉电、网络异常、磁盘损坏等单机故障,这些故障单机房内的多副本足以应付。若是是机房故障就要涉及异地容灾了,关键点在于如何有效的进行数据复制,对于 Kafka 而言,能够参考 MirrorMarker、uReplicator 等产品,而 RabbitMQ 能够参考 Federation 和 Shovel。
具体技术选型指标5:社区力度及生态发展
对于目前流行的编程语言而言,如 Java、Python,若是你在使用过程当中遇到了一些异常,基本上能够经过搜索引擎的帮助来获得解决,由于一个产品用的人越多,踩过的坑也就越多,对应的解决方案也就越多。对于消息中间件也一样适用,若是你选择了一种“生僻”的消息中间件,可能在某些方面运用的驾轻就熟,可是版本更新缓慢、遇到棘手问题也难以获得社区的支持而越陷越深;相反若是你选择了一种“流行”的消息中间件,其更新力度大,不只能够迅速的弥补以前的不足,并且也能顺应技术的快速发展来变动一些新的功能,这样可让你以“站在巨人的肩膀上”。在运维管理维度咱们说起了 Kafka 和 RabbitMQ 都有一系列开源的监控管理产品,这些正是得益于其社区及生态的迅猛发展。
消息中间件选型还有一个考量标准就是尽可能贴合团队自身的技术栈体系,虽说没有蹩脚的消息中间件只有蹩脚的程序员,可是让一个 C 栈的团队去深挖 PhxQueue 总比去深挖 Scala 编写的 Kafka 要容易的多。
消息中间件选型切忌一味的追求性能或者功能,性能能够优化,功能能够二次开发。若是要在功能和性能方面作一个抉择的话,那么首选性能,由于整体上来讲性能优化的空间没有功能扩展的空间大。然而对于长期发展而言,生态又比性能以及功能都要重要。
消息中间件大道至简:一发一存一消费,没有最好的消息中间件,只有最合适的消息中间件。