分布式之消息队列

 

其实面试官主要是想看看:java

    • 第一,你知不知道大家系统里为何要用消息队列这个东西?
      很多候选人,说本身项目里用了 Redis、MQ,可是其实他并不知道本身为何要用这个东西。其实说白了,就是为了用而用,或者是别人设计的架构,他从头至尾都没思考过
      没有对本身的架构问过为何的人,必定是平时没有思考的人,面试官对这类候选人印象一般很很差。由于面试官担忧你进了团队以后只会木头木脑的干呆活儿,不会本身思考mysql

    • 第二,你既然用了消息队列这个东西,你知不知道用了有什么好处&坏处?
      你要是没考虑过这个,那你盲目弄个 MQ 进系统里,后面出了问题你是否是就本身溜了给公司留坑?你要是没考虑过引入一个技术可能存在的弊端和风险,面试官把这类候选人招进来了,基本可能就是挖坑型选手。就怕你干 1 年挖一堆坑,本身跳槽了,给公司留下无穷后患。git

    • 第三,既然你用了 MQ,多是某一种 MQ,那么你当时作没作过调研?
      你别傻乎乎的本身拍脑壳看我的喜爱就瞎用了一个 MQ,好比 Kafka,甚至都从没调研过业界流行的 MQ 到底有哪几种。每个 MQ 的优势和缺点是什么。每个 MQ 没有绝对的好坏,可是就是看用在哪一个场景能够扬长避短,利用其优点,规避其劣势
      若是是一个不考虑技术选型的候选人招进了团队,leader 交给他一个任务,去设计个什么系统,他在里面用一些技术,可能都没考虑过选型,最后选的技术可能并不必定合适,同样是留坑。github

1、为何使用消息队列?

  其实就是问问你消息队列都有哪些使用场景,而后你项目里具体是什么场景,说说你在这个场景里用消息队列是什么?面试

  面试官问你这个问题,指望的一个回答是说,大家公司有个什么业务场景,这个业务场景有个什么技术挑战,若是不用 MQ 可能会很麻烦,可是你如今用了 MQ 以后带给了你不少的好处。sql

解耦

  看这么个场景。A 系统发送数据到 BCD 三个系统,经过接口调用发送。若是 E 系统也要这个数据呢?那若是 C 系统如今不须要了呢?A 系统负责人几乎崩溃......数据库

 

  在这个场景中,A 系统跟其它各类乱七八糟的系统严重耦合,A 系统产生一条比较关键的数据,不少系统都须要 A 系统将这个数据发送过来。A 系统要时时刻刻考虑 BCDE 四个系统若是挂了该咋办?要不要重发,要不要把消息存起来?头发都白了啊!apache

 

  若是使用 MQ,A 系统产生一条数据,发送到 MQ 里面去,哪一个系统须要数据本身去 MQ 里面消费。若是新系统须要数据,直接从 MQ 里消费便可;若是某个系统不须要这条数据了,就取消对 MQ 消息的消费便可。这样下来,A 系统压根儿不须要去考虑要给谁发送数据,不须要维护这个代码,也不须要考虑人家是否调用成功、失败超时等状况。api

 

  总结:经过一个 MQ,Pub/Sub 发布订阅消息这么一个模型,A 系统就跟其它系统完全解耦了。浏览器

 

  面试技巧:你须要去考虑一下你负责的系统中是否有相似的场景,就是一个系统或者一个模块,调用了多个系统或者模块,互相之间的调用很复杂,维护起来很麻烦。可是其实这个调用是不须要直接同步调用接口的,若是用 MQ 给它异步化解耦,也是能够的,你就须要去考虑在你的项目里,是否是能够运用这个 MQ 去进行系统的解耦。在简历中体现出来这块东西,用 MQ 做解耦。

 

异步

 

  再来看一个场景,A 系统接收一个请求,须要在本身本地写库,还须要在 BCD 三个系统写库,本身本地写库要 3ms,BCD 三个系统分别写库要 300ms、450ms、200ms。最终请求总延时是 3 + 300 + 450 + 200 = 953ms,接近 1s,用户感受搞个什么东西,慢死了慢死了。用户经过浏览器发起请求,等待个 1s,这几乎是不可接受的。

通常互联网类的企业,对于用户直接的操做,通常要求是每一个请求都必须在 200 ms 之内完成,对用户几乎是无感知的。

  若是使用 MQ,那么 A 系统连续发送 3 条消息到 MQ 队列中,假如耗时 5ms,A 系统从接受一个请求到返回响应给用户,总时长是 3 + 5 = 8ms,对于用户而言,其实感受上就是点个按钮,8ms 之后就直接返回了,爽!网站作得真好,真快!

 

削峰

 

  天天 0:00 到 12:00,A 系统风平浪静,每秒并发请求数量就 50 个。结果每次一到 12:00 ~ 13:00 ,每秒并发请求数量忽然会暴增到 5k+ 条。可是系统是直接基于 MySQL 的,大量的请求涌入 MySQL,每秒钟对 MySQL 执行约 5k 条 SQL。

 

  通常的 MySQL,扛到每秒 2k 个请求就差很少了,若是每秒请求到 5k 的话,可能就直接把 MySQL 给打死了,致使系统崩溃,用户也就无法再使用系统了。

 

  可是高峰期一过,到了下午的时候,就成了低峰期,可能也就 1w 的用户同时在网站上操做,每秒中的请求数量可能也就 50 个请求,对整个系统几乎没有任何的压力。

  若是使用 MQ,每秒 5k 个请求写入 MQ,A 系统每秒钟最多处理 2k 个请求,由于 MySQL 每秒钟最多处理 2k 个。A 系统从 MQ 中慢慢拉取请求,每秒钟就拉取 2k 个请求,不要超过本身每秒能处理的最大请求数量就 ok,这样下来,哪怕是高峰期的时候,A 系统也绝对不会挂掉。而 MQ 每秒钟 5k 个请求进来,就 2k 个请求出去,结果就致使在中午高峰期(1 个小时),可能有几十万甚至几百万的请求积压在 MQ 中。

  这个短暂的高峰期积压是 ok 的,由于高峰期过了以后,每秒钟就 50 个请求进 MQ,可是 A 系统依然会按照每秒 2k 个请求的速度在处理。因此说,只要高峰期一过,A 系统就会快速将积压的消息给解决掉。

2、消息队列有什么优势和缺点?

  优势上面已经说了,就是在特殊场景下有其对应的好处,解耦、异步、削峰。

  缺点有如下几个:

  • 系统可用性下降
    系统引入的外部依赖越多,越容易挂掉。原本你就是 A 系统调用 BCD 三个系统的接口就行了,人 ABCD 四个系统好好的,没啥问题,你偏加个 MQ 进来,万一 MQ 挂了咋整,MQ 一挂,整套系统崩溃的,你不就完了?如何保证消息队列的高可用,能够点击这里查看

  • 系统复杂度提升
    硬生生加个 MQ 进来,你怎么保证消息没有重复消费?怎么处理消息丢失的状况?怎么保证消息传递的顺序性?头大头大,问题一大堆,痛苦不已。

  • 一致性问题
    A 系统处理完了直接返回成功了,人都觉得你这个请求就成功了;可是问题是,要是 BCD 三个系统那里,BD 两个系统写库成功了,结果 C 系统写库失败了,咋整?你这数据就不一致了。

  因此消息队列实际是一种很是复杂的架构,你引入它有不少好处,可是也得针对它带来的坏处作各类额外的技术方案和架构来规避掉,作好以后,你会发现,妈呀,系统复杂度提高了一个数量级,也许是复杂了 10 倍。可是关键时刻,用,仍是得用的。

3、Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什么区别,以及适合哪些场景?

特性 ActiveMQ RabbitMQ RocketMQ Kafka
单机吞吐量 万级,比 RocketMQ、Kafka 低一个数量级 同 ActiveMQ 10 万级,支撑高吞吐 10 万级,高吞吐,通常配合大数据类的系统来进行实时数据计算、日志采集等场景
topic 数量对吞吐量的影响     topic 能够达到几百/几千的级别,吞吐量会有较小幅度的降低,这是 RocketMQ 的一大优点,在同等机器下,能够支撑大量的 topic topic 从几十到几百个时候,吞吐量会大幅度降低,在同等机器下,Kafka 尽可能保证 topic 数量不要过多,若是要支撑大规模的 topic,须要增长更多的机器资源
时效性 ms 级 微秒级,这是 RabbitMQ 的一大特色,延迟最低 ms 级 延迟在 ms 级之内
可用性 高,基于主从架构实现高可用 同 ActiveMQ 很是高,分布式架构 很是高,分布式,一个数据多个副本,少数机器宕机,不会丢失数据,不会致使不可用
消息可靠性 有较低的几率丢失数据 基本不丢 通过参数优化配置,能够作到 0 丢失 同 RocketMQ
功能支持 MQ 领域的功能极其完备 基于 erlang 开发,并发能力很强,性能极好,延时很低 MQ 功能较为完善,仍是分布式的,扩展性好 功能较为简单,主要支持简单的 MQ 功能,在大数据领域的实时计算以及日志采集被大规模使用

  综上,各类对比以后,有以下建议:

  通常的业务系统要引入 MQ,最先你们都用 ActiveMQ,可是如今确实你们用的很少了,没通过大规模吞吐量场景的验证,社区也不是很活跃,因此你们仍是算了吧,我我的不推荐用这个了;

  后来你们开始用 RabbitMQ,可是确实 erlang 语言阻止了大量的 Java 工程师去深刻研究和掌控它,对公司而言,几乎处于不可控的状态,可是确实人家是开源的,比较稳定的支持,活跃度也高;

  不过如今确实愈来愈多的公司会去用 RocketMQ,确实很不错,毕竟是阿里出品,但社区可能有忽然黄掉的风险(目前 RocketMQ 已捐给 Apache,但 GitHub 上的活跃度其实不算高)对本身公司技术实力有绝对自信的,推荐用 RocketMQ,不然回去老老实实用 RabbitMQ 吧,人家有活跃的开源社区,绝对不会黄。

  因此中小型公司,技术实力较为通常,技术挑战不是特别高,用 RabbitMQ 是不错的选择;大型公司,基础架构研发实力较强,用 RocketMQ 是很好的选择。

  若是是大数据领域的实时计算、日志采集等场景,用 Kafka 是业内标准的,绝对没问题,社区活跃度很高,绝对不会黄,况且几乎是全世界这个领域的事实性规范。

4、如何保证消息队列的高可用?

  若是有人问到你 MQ 的知识,高可用是必问的。上一讲提到,MQ 会致使系统可用性下降。因此只要你用了 MQ,接下来问的一些要点确定就是围绕着 MQ 的那些缺点怎么来解决了。

  要是你傻乎乎的就干用了一个 MQ,各类问题历来没考虑过,那你就杯具了,面试官对你的感受就是,只会简单使用一些技术,没任何思考,立刻对你的印象就不太好了。这样的同窗招进来要是作个 20k 薪资之内的普通小弟还凑合,要是作薪资 20k+ 的高工,那就惨了,让你设计个系统,里面确定一堆坑,出了事故公司受损失,团队一块儿背锅。

  这个问题这么问是很好的,由于不能问你 Kafka 的高可用性怎么保证?ActiveMQ 的高可用性怎么保证?一个面试官要是这么问就显得很没水平,人家可能用的就是 RabbitMQ,没用过 Kafka,你上来问人家 Kafka 干什么?这不是摆明了刁难人么。

  因此有水平的面试官,问的是 MQ 的高可用性怎么保证?这样就是你用过哪一个 MQ,你就说说你对那个 MQ 的高可用性的理解。

RabbitMQ 的高可用性

  RabbitMQ 是比较有表明性的,由于是基于主从(非分布式)作高可用性的,咱们就以 RabbitMQ 为例子讲解第一种 MQ 的高可用性怎么实现。

  RabbitMQ 有三种模式:单机模式、普通集群模式、镜像集群模式。

  单机模式

  单机模式,就是 Demo 级别的,通常就是你本地启动了玩玩儿的😄,没人生产用单机模式。

  普通集群模式(无高可用性)

  普通集群模式,意思就是在多台机器上启动多个 RabbitMQ 实例,每一个机器启动一个。你建立的 queue,只会放在一个 RabbitMQ 实例上,可是每一个实例都同步 queue 的元数据(元数据能够认为是 queue 的一些配置信息,经过元数据,能够找到 queue 所在实例)。你消费的时候,实际上若是链接到了另一个实例,那么那个实例会从 queue 所在实例上拉取数据过来。

  这种方式确实很麻烦,也不怎么好,没作到所谓的分布式,就是个普通集群。由于这致使你要么消费者每次随机链接一个实例而后拉取数据,要么固定链接那个 queue 所在实例消费数据,前者有数据拉取的开销,后者致使单实例性能瓶颈。

  并且若是那个放 queue 的实例宕机了,会致使接下来其余实例就没法从那个实例拉取,若是你开启了消息持久化,让 RabbitMQ 落地存储消息的话,消息不必定会丢,得等这个实例恢复了,而后才能够继续从这个 queue 拉取数据。

  因此这个事儿就比较尴尬了,这就没有什么所谓的高可用性,这方案主要是提升吞吐量的,就是说让集群中多个节点来服务某个 queue 的读写操做。

  镜像集群模式(高可用性)

  这种模式,才是所谓的 RabbitMQ 的高可用模式。跟普通集群模式不同的是,在镜像集群模式下,你建立的 queue,不管元数据仍是 queue 里的消息都会存在于多个实例上,就是说,每一个 RabbitMQ 节点都有这个 queue 的一个完整镜像,包含 queue 的所有数据的意思。而后每次你写消息到 queue 的时候,都会自动把消息同步到多个实例的 queue 上。

  那么如何开启这个镜像集群模式呢?其实很简单,RabbitMQ 有很好的管理控制台,就是在后台新增一个策略,这个策略是镜像集群模式的策略,指定的时候是能够要求数据同步到全部节点的,也能够要求同步到指定数量的节点,再次建立 queue 的时候,应用这个策略,就会自动将数据同步到其余的节点上去了。

  这样的话,好处在于,你任何一个机器宕机了,没事儿,其它机器(节点)还包含了这个 queue 的完整数据,别的 consumer 均可以到其它节点上去消费数据。坏处在于,第一,这个性能开销也太大了吧,消息须要同步到全部机器上,致使网络带宽压力和消耗很重!第二,这么玩儿,不是分布式的,就没有扩展性可言了,若是某个 queue 负载很重,你加机器,新增的机器也包含了这个 queue 的全部数据,并无办法线性扩展你的 queue。你想,若是这个 queue 的数据量很大,大到这个机器上的容量没法容纳了,此时该怎么办呢?

Kafka 的高可用性

  Kafka 一个最基本的架构认识:由多个 broker 组成,每一个 broker 是一个节点;你建立一个 topic,这个 topic 能够划分为多个 partition,每一个 partition 能够存在于不一样的 broker 上,每一个 partition 就放一部分数据。

  这就是自然的分布式消息队列,就是说一个 topic 的数据,是分散放在多个机器上的,每一个机器就放一部分数据。

  实际上 RabbmitMQ 之类的,并非分布式消息队列,它就是传统的消息队列,只不过提供了一些集群、HA(High Availability, 高可用性) 的机制而已,由于不管怎么玩儿,RabbitMQ 一个 queue 的数据都是放在一个节点里的,镜像集群下,也是每一个节点都放这个 queue 的完整数据。

  Kafka 0.8 之前,是没有 HA 机制的,就是任何一个 broker 宕机了,那个 broker 上的 partition 就废了,无法写也无法读,没有什么高可用性可言。

好比说,咱们假设建立了一个 topic,指定其 partition 数量是 3 个,分别在三台机器上。可是,若是第二台机器宕机了,会致使这个 topic 的 1/3 的数据就丢了,所以这个是作不到高可用的。

kafka-before

  Kafka 0.8 之后,提供了 HA 机制,就是 replica(复制品) 副本机制。每一个 partition 的数据都会同步到其它机器上,造成本身的多个 replica 副本。全部 replica 会选举一个 leader 出来,那么生产和消费都跟这个 leader 打交道,而后其余 replica 就是 follower。写的时候,leader 会负责把数据同步到全部 follower 上去,读的时候就直接读 leader 上的数据便可。只能读写 leader?很简单,要是你能够随意读写每一个 follower,那么就要 care 数据一致性的问题,系统复杂度过高,很容易出问题。Kafka 会均匀地将一个 partition 的全部 replica 分布在不一样的机器上,这样才能够提升容错性。

kafka-after

  这么搞,就有所谓的高可用性了,由于若是某个 broker 宕机了,没事儿,那个 broker上面的 partition 在其余机器上都有副本的,若是这上面有某个 partition 的 leader,那么此时会从 follower 中从新选举一个新的 leader 出来,你们继续读写那个新的 leader 便可。这就有所谓的高可用性了。

  写数据的时候,生产者就写 leader,而后 leader 将数据落地写本地磁盘,接着其余 follower 本身主动从 leader 来 pull 数据。一旦全部 follower 同步好数据了,就会发送 ack 给 leader,leader 收到全部 follower 的 ack 以后,就会返回写成功的消息给生产者。(固然,这只是其中一种模式,还能够适当调整这个行为)

  消费的时候,只会从 leader 去读,可是只有当一个消息已经被全部 follower 都同步成功返回 ack 的时候,这个消息才会被消费者读到。

  看到这里,相信你大体明白了 Kafka 是如何保证高可用机制的了,对吧?不至于一无所知,现场还能给面试官画画图。要是赶上面试官确实是 Kafka 高手,深挖了问,那你只能说很差意思,太深刻的你没研究过。

5、如何保证消息不被重复消费?或者说,如何保证消息消费的幂等性?

  其实这是很常见的一个问题,这俩问题基本能够连起来问。既然是消费消息,那确定要考虑会不会重复消费?能不能避免重复消费?或者重复消费了也别形成系统异常能够吗?这个是 MQ 领域的基本问题,其实本质上仍是问你使用消息队列如何保证幂等性,这个是你架构里要考虑的一个问题。

  回答这个问题,首先你别听到重复消息这个事儿,就一无所知吧,你先大概说一说可能会有哪些重复消费的问题。

  首先,好比 RabbitMQ、RocketMQ、Kafka,都有可能会出现消息重复消费的问题,正常。由于这问题一般不是 MQ 本身保证的,是由咱们开发来保证的。挑一个 Kafka 来举个例子,说说怎么重复消费吧。

  Kafka 实际上有个 offset 的概念,就是每一个消息写进去,都有一个 offset,表明消息的序号,而后 consumer 消费了数据以后,每隔一段时间(定时按期),会把本身消费过的消息的 offset 提交一下,表示“我已经消费过了,下次我要是重启啥的,你就让我继续从上次消费到的 offset 来继续消费吧”。

  可是凡事总有意外,好比咱们以前生产常常遇到的,就是你有时候重启系统,看你怎么重启了,若是碰到点着急的,直接 kill 进程了,再重启。这会致使 consumer 有些消息处理了,可是没来得及提交 offset,尴尬了。重启以后,少数消息会再次消费一次。

  举个例子。

  有这么个场景。数据 1/2/3 依次进入 kafka,kafka 会给这三条数据每条分配一个 offset,表明这条数据的序号,咱们就假设分配的 offset 依次是 152/153/154。消费者从 kafka 去消费的时候,也是按照这个顺序去消费。假如当消费者消费了 offset=153 的这条数据,刚准备去提交 offset 到 zookeeper,此时消费者进程被重启了。那么此时消费过的数据 1/2 的 offset 并无提交,kafka 也就不知道你已经消费了 offset=153 这条数据。那么重启以后,消费者会找 kafka 说,嘿,哥儿们,你给我接着把上次我消费到的那个地方后面的数据继续给我传递过来。因为以前的 offset 没有提交成功,那么数据 1/2 会再次传过来,若是此时消费者没有去重的话,那么就会致使重复消费。

 

  若是消费者干的事儿是拿一条数据就往数据库里写一条,会致使说,你可能就把数据 1/2 在数据库里插入了 2 次,那么数据就错啦。

  其实重复消费不可怕,可怕的是你没考虑到重复消费以后,怎么保证幂等性。

  举个例子吧。假设你有个系统,消费一条消息就往数据库里插入一条数据,要是你一个消息重复两次,你不就插入了两条,这数据不就错了?可是你要是消费到第二次的时候,本身判断一下是否已经消费过了,如果就直接扔了,这样不就保留了一条数据,从而保证了数据的正确性。

  一条数据重复出现两次,数据库里就只有一条数据,这就保证了系统的幂等性。

  幂等性,通俗点说,就一个数据,或者一个请求,给你重复来屡次,你得确保对应的数据是不会改变的,不能出错。

  因此第二个问题来了,怎么保证消息队列消费的幂等性?

  其实仍是得结合业务来思考,我这里给几个思路:

  • 好比你拿个数据要写库,你先根据主键查一下,若是这数据都有了,你就别插入了,update 一下好吧。
  • 好比你是写 Redis,那没问题了,反正每次都是 set,自然幂等性。
  • 好比你不是上面两个场景,那作的稍微复杂一点,你须要让生产者发送每条数据的时候,里面加一个全局惟一的 id,相似订单 id 之类的东西,而后你这里消费到了以后,先根据这个 id 去好比 Redis 里查一下,以前消费过吗?若是没有消费过,你就处理,而后这个 id 写 Redis。若是消费过了,那你就别处理了,保证别重复处理相同的消息便可。
  • 好比基于数据库的惟一键来保证重复数据不会重复插入多条。由于有惟一键约束了,重复数据插入只会报错,不会致使数据库中出现脏数据。

mq-11

  固然,如何保证 MQ 的消费是幂等性的,须要结合具体的业务来看。

6、如何保证消息的可靠性传输?或者说,如何处理消息丢失的问题?

  这个是确定的,用 MQ 有个基本原则,就是数据不能多一条,也不能少一条,不能多,就是前面说的重复消费和幂等性问题。不能少,就是说这数据别搞丢了。那这个问题你必须得考虑一下。

  若是说你这个是用 MQ 来传递很是核心的消息,好比说计费、扣费的一些消息,那必须确保这个 MQ 传递过程当中绝对不会把计费消息给弄丢。

数据的丢失问题,可能出如今生产者、MQ、消费者中,我们从 RabbitMQ 和 Kafka 分别来分析一下吧。

RabbitMQ

rabbitmq-message-lose

  生产者弄丢了数据

  生产者将数据发送到 RabbitMQ 的时候,可能数据就在半路给搞丢了,由于网络问题啥的,都有可能。

  此时能够选择用 RabbitMQ 提供的事务功能,就是生产者发送数据以前开启 RabbitMQ 事务channel.txSelect,而后发送消息,若是消息没有成功被 RabbitMQ 接收到,那么生产者会收到异常报错,此时就能够回滚事务channel.txRollback,而后重试发送消息;若是收到了消息,那么能够提交事务channel.txCommit

// 开启事务
channel.txSelect
try {
    // 这里发送消息
} catch (Exception e) {
    channel.txRollback

    // 这里再次重发这条消息
}

// 提交事务
channel.txCommit

  可是问题是,RabbitMQ 事务机制(同步)一搞,基本上吞吐量会下来,由于太耗性能。

  因此通常来讲,若是你要确保说写 RabbitMQ 的消息别丢,能够开启 confirm 模式,在生产者那里设置开启 confirm 模式以后,你每次写的消息都会分配一个惟一的 id,而后若是写入了 RabbitMQ 中,RabbitMQ 会给你回传一个 ack 消息,告诉你说这个消息 ok 了。若是 RabbitMQ 没能处理这个消息,会回调你的一个 nack 接口,告诉你这个消息接收失败,你能够重试。并且你能够结合这个机制本身在内存里维护每一个消息 id 的状态,若是超过必定时间还没接收到这个消息的回调,那么你能够重发。

  事务机制和 confirm 机制最大的不一样在于,事务机制是同步的,你提交一个事务以后会阻塞在那儿,可是 confirm 机制是异步的,你发送个消息以后就能够发送下一个消息,而后那个消息 RabbitMQ 接收了以后会异步回调你的一个接口通知你这个消息接收到了。

  因此通常在生产者这块避免数据丢失,都是用 confirm 机制的。

RabbitMQ 弄丢了数据

  就是 RabbitMQ 本身弄丢了数据,这个你必须开启 RabbitMQ 的持久化,就是消息写入以后会持久化到磁盘,哪怕是 RabbitMQ 本身挂了,恢复以后会自动读取以前存储的数据,通常数据不会丢。除非极其罕见的是,RabbitMQ 还没持久化,本身就挂了,可能致使少许数据丢失,可是这个几率较小。

  设置持久化有两个步骤:

  • 建立 queue 的时候将其设置为持久化
    这样就能够保证 RabbitMQ 持久化 queue 的元数据,可是它是不会持久化 queue 里的数据的。
  • 第二个是发送消息的时候将消息的 deliveryMode 设置为 2
    就是将消息设置为持久化的,此时 RabbitMQ 就会将消息持久化到磁盘上去。

  必需要同时设置这两个持久化才行,RabbitMQ 哪怕是挂了,再次重启,也会从磁盘上重启恢复 queue,恢复这个 queue 里的数据。

注意,哪怕是你给 RabbitMQ 开启了持久化机制,也有一种可能,就是这个消息写到了 RabbitMQ 中,可是还没来得及持久化到磁盘上,结果不巧,此时 RabbitMQ 挂了,就会致使内存里的一点点数据丢失。

  因此,持久化能够跟生产者那边的 confirm 机制配合起来,只有消息被持久化到磁盘以后,才会通知生产者 ack 了,因此哪怕是在持久化到磁盘以前,RabbitMQ 挂了,数据丢了,生产者收不到 ack,你也是能够本身重发的。

  消费端弄丢了数据

  RabbitMQ 若是丢失了数据,主要是由于你消费的时候,刚消费到,还没处理,结果进程挂了,好比重启了,那么就尴尬了,RabbitMQ 认为你都消费了,这数据就丢了。

  这个时候得用 RabbitMQ 提供的 ack 机制,简单来讲,就是你必须关闭 RabbitMQ 的自动 ack,能够经过一个 api 来调用就行,而后每次你本身代码里确保处理完的时候,再在程序里 ack 一把。这样的话,若是你还没处理完,不就没有 ack了?那 RabbitMQ 就认为你还没处理完,这个时候 RabbitMQ 会把这个消费分配给别的 consumer 去处理,消息是不会丢的。

rabbitmq-message-lose-solution

Kafka

  消费端弄丢了数据

  惟一可能致使消费者弄丢数据的状况,就是说,你消费到了这个消息,而后消费者那边自动提交了 offset,让 Kafka 觉得你已经消费好了这个消息,但其实你才刚准备处理这个消息,你还没处理,你本身就挂了,此时这条消息就丢咯。

  这不是跟 RabbitMQ 差很少吗,你们都知道 Kafka 会自动提交 offset,那么只要关闭自动提交 offset,在处理完以后本身手动提交 offset,就能够保证数据不会丢。可是此时确实仍是可能会有重复消费,好比你刚处理完,还没提交 offset,结果本身挂了,此时确定会重复消费一次,本身保证幂等性就行了。

  生产环境碰到的一个问题,就是说咱们的 Kafka 消费者消费到了数据以后是写到一个内存的 queue 里先缓冲一下,结果有的时候,你刚把消息写入内存 queue,而后消费者会自动提交 offset。而后此时咱们重启了系统,就会致使内存 queue 里还没来得及处理的数据就丢失了。

Kafka 弄丢了数据

  这块比较常见的一个场景,就是 Kafka 某个 broker 宕机,而后从新选举 partition 的 leader。你们想一想,要是此时其余的 follower 恰好还有些数据没有同步,结果此时 leader 挂了,而后选举某个 follower 成 leader 以后,不就少了一些数据?这就丢了一些数据啊。

  生产环境也遇到过,咱们也是,以前 Kafka 的 leader 机器宕机了,将 follower 切换为 leader 以后,就会发现说这个数据就丢了。

  因此此时通常是要求起码设置以下 4 个参数:

  • 给 topic 设置 replication.factor 参数:这个值必须大于 1,要求每一个 partition 必须有至少 2 个副本。
  • 在 Kafka 服务端设置 min.insync.replicas 参数:这个值必须大于 1,这个是要求一个 leader 至少感知到有至少一个 follower 还跟本身保持联系,没掉队,这样才能确保 leader 挂了还有一个 follower 吧。
  • 在 producer 端设置 acks=all:这个是要求每条数据,必须是写入全部 replica 以后,才能认为是写成功了。
  • 在 producer 端设置 retries=MAX(很大很大很大的一个值,无限次重试的意思):这个是要求一旦写入失败,就无限重试,卡在这里了。

  咱们生产环境就是按照上述要求配置的,这样配置以后,至少在 Kafka broker 端就能够保证在 leader 所在 broker 发生故障,进行 leader 切换时,数据不会丢失。

  生产者会不会弄丢数据?

  若是按照上述的思路设置了 acks=all,必定不会丢,要求是,你的 leader 接收到消息,全部的 follower 都同步到了消息以后,才认为本次写成功了。若是没知足这个条件,生产者会自动不断的重试,重试无限次。

7、如何保证消息的顺序性?

  其实这个也是用 MQ 的时候必问的话题,第一看看你了不了解顺序这个事儿?第二看看你有没有办法保证消息是有顺序的?这是生产系统中常见的问题。

  我举个例子,咱们之前作过一个 mysql binlog 同步的系统,压力仍是很是大的,日同步数据要达到上亿,就是说数据从一个 mysql 库原封不动地同步到另外一个 mysql 库里面去(mysql -> mysql)。常见的一点在于说好比大数据 team,就须要同步一个 mysql 库过来,对公司的业务系统的数据作各类复杂的操做。

  你在 mysql 里增删改一条数据,对应出来了增删改 3 条 binlog 日志,接着这三条 binlog 发送到 MQ 里面,再消费出来依次执行,起码得保证人家是按照顺序来的吧?否则原本是:增长、修改、删除;你楞是换了顺序给执行成删除、修改、增长,不全错了么。

原本这个数据同步过来,应该最后这个数据被删除了;结果你搞错了这个顺序,最后这个数据保留下来了,数据同步就出错了。

  先看看顺序会错乱的俩场景:

  • RabbitMQ:一个 queue,多个 consumer。好比,生产者向 RabbitMQ 里发送了三条数据,顺序依次是 data1/data2/data3,压入的是 RabbitMQ 的一个内存队列。有三个消费者分别从 MQ 中消费这三条数据中的一条,结果消费者2先执行完操做,把 data2 存入数据库,而后是 data1/data3。这不明显乱了。

rabbitmq-order-01

  • Kafka:好比说咱们建了一个 topic,有三个 partition。生产者在写的时候,其实能够指定一个 key,好比说咱们指定了某个订单 id 做为 key,那么这个订单相关的数据,必定会被分发到同一个 partition 中去,并且这个 partition 中的数据必定是有顺序的。
    消费者从 partition 中取出来数据的时候,也必定是有顺序的。到这里,顺序仍是 ok 的,没有错乱。接着,咱们在消费者里可能会搞多个线程来并发处理消息。由于若是消费者是单线程消费处理,而处理比较耗时的话,好比处理一条消息耗时几十 ms,那么 1 秒钟只能处理几十条消息,这吞吐量过低了。而多个线程并发跑的话,顺序可能就乱掉了。

kafka-order-01

解决方案

  RabbitMQ

  拆分多个 queue,每一个 queue 一个 consumer,就是多一些 queue 而已,确实是麻烦点;或者就一个 queue 可是对应一个 consumer,而后这个 consumer 内部用内存队列作排队,而后分发给底层不一样的 worker 来处理。 rabbitmq-order-02

  Kafka

  • 一个 topic,一个 partition,一个 consumer,内部单线程消费,单线程吞吐量过低,通常不会用这个。
  • 写 N 个内存 queue,具备相同 key 的数据都到同一个内存 queue;而后对于 N 个线程,每一个线程分别消费一个内存 queue 便可,这样就能保证顺序性。

kafka-order-02  

8、如何解决消息队列的延时以及过时失效问题?消息队列满了之后该怎么处理?有几百万消息持续积压几小时,说说怎么解决?

  你看这问法,其实本质针对的场景,都是说,可能你的消费端出了问题,不消费了;或者消费的速度极其慢。接着就坑爹了,可能你的消息队列集群的磁盘都快写满了,都没人消费,这个时候怎么办?或者是这整个就积压了几个小时,你这个时候怎么办?或者是你积压的时间太长了,致使好比 RabbitMQ 设置了消息过时时间后就没了怎么办?

  因此就这事儿,其实线上挺常见的,通常不出,一出就是大 case。通常常见于,举个例子,消费端每次消费以后要写 mysql,结果 mysql 挂了,消费端 hang 那儿了,不动了;或者是消费端出了个什么岔子,致使消费速度极其慢。

  关于这个事儿,咱们一个一个来梳理吧,先假设一个场景,咱们如今消费端出故障了,而后大量消息在 mq 里积压,如今出事故了,慌了。

  大量消息在 mq 里积压了几个小时了还没解决

  几千万条数据在 MQ 里积压了七八个小时,从下午 4 点多,积压到了晚上 11 点多。这个是咱们真实遇到过的一个场景,确实是线上故障了,这个时候要否则就是修复 consumer 的问题,让它恢复消费速度,而后傻傻的等待几个小时消费完毕。这个确定不能在面试的时候说吧。

  一个消费者一秒是 1000 条,一秒 3 个消费者是 3000 条,一分钟就是 18 万条。因此若是你积压了几百万到上千万的数据,即便消费者恢复了,也须要大概 1 小时的时间才能恢复过来。

  通常这个时候,只能临时紧急扩容了,具体操做步骤和思路以下:

  • 先修复 consumer 的问题,确保其恢复消费速度,而后将现有 consumer 都停掉。
  • 新建一个 topic,partition 是原来的 10 倍,临时创建好原先 10 倍的 queue 数量。
  • 而后写一个临时的分发数据的 consumer 程序,这个程序部署上去消费积压的数据,消费以后不作耗时的处理,直接均匀轮询写入临时创建好的 10 倍数量的 queue。
  • 接着临时征用 10 倍的机器来部署 consumer,每一批 consumer 消费一个临时 queue 的数据。这种作法至关因而临时将 queue 资源和 consumer 资源扩大 10 倍,以正常的 10 倍速度来消费数据。
  • 等快速消费完积压数据以后,得恢复原先部署的架构,从新用原先的 consumer 机器来消费消息。

  mq 中的消息过时失效了

  假设你用的是 RabbitMQ,RabbtiMQ 是能够设置过时时间的,也就是 TTL。若是消息在 queue 中积压超过必定的时间就会被 RabbitMQ 给清理掉,这个数据就没了。那这就是第二个坑了。这就不是说数据会大量积压在 mq 里,而是大量的数据会直接搞丢。

  这个状况下,就不是说要增长 consumer 消费积压的消息,由于实际上没啥积压,而是丢了大量的消息。咱们能够采起一个方案,就是批量重导,这个咱们以前线上也有相似的场景干过。就是大量积压的时候,咱们当时就直接丢弃数据了,而后等过了高峰期之后,好比你们一块儿喝咖啡熬夜到晚上12点之后,用户都睡觉了。这个时候咱们就开始写程序,将丢失的那批数据,写个临时程序,一点一点的查出来,而后从新灌入 mq 里面去,把白天丢的数据给他补回来。也只能是这样了。

  假设 1 万个订单积压在 mq 里面,没有处理,其中 1000 个订单都丢了,你只能手动写程序把那 1000 个订单给查出来,手动发到 mq 里去再补一次。

  mq 都快写满了

  若是消息积压在 mq 里,你很长时间都没有处理掉,此时致使 mq 都快写满了,咋办?这个还有别的办法吗?没有,谁让你第一个方案执行的太慢了,你临时写程序,接入数据来消费,消费一个丢弃一个,都不要了,快速消费掉全部的消息。而后走第二个方案,到了晚上再补数据吧。

9、若是让你写一个消息队列,该如何进行架构设计?说一下你的思路。

面试官心理分析

  其实聊到这个问题,通常面试官要考察两块:

  • 你有没有对某一个消息队列作过较为深刻的原理的了解,或者从总体了解把握住一个消息队列的架构原理。
  • 看看你的设计能力,给你一个常见的系统,就是消息队列系统,看看你能不能从全局把握一下总体架构设计,给出一些关键点出来。

  说实话,问相似问题的时候,大部分人基本都会蒙,由于平时历来没有思考过相似的问题,大多数人就是平时埋头用,历来不去思考背后的一些东西。相似的问题,好比,若是让你来设计一个 Spring 框架你会怎么作?若是让你来设计一个 Dubbo 框架你会怎么作?若是让你来设计一个 MyBatis 框架你会怎么作?

其实回答这类问题,说白了,不求你看过那技术的源码,起码你要大概知道那个技术的基本原理、核心组成部分、基本架构构成,而后参照一些开源的技术把一个系统设计出来的思路说一下就好。

  好比说这个消息队列系统,咱们从如下几个角度来考虑一下:

  • 首先这个 mq 得支持可伸缩性吧,就是须要的时候快速扩容,就能够增长吞吐量和容量,那怎么搞?设计个分布式的系统呗,参照一下 kafka 的设计理念,broker -> topic -> partition,每一个 partition 放一个机器,就存一部分数据。若是如今资源不够了,简单啊,给 topic 增长 partition,而后作数据迁移,增长机器,不就能够存放更多数据,提供更高的吞吐量了?

  • 其次你得考虑一下这个 mq 的数据要不要落地磁盘吧?那确定要了,落磁盘才能保证别进程挂了数据就丢了。那落磁盘的时候怎么落啊?顺序写,这样就没有磁盘随机读写的寻址开销,磁盘顺序读写的性能是很高的,这就是 kafka 的思路。

  • 其次你考虑一下你的 mq 的可用性啊?这个事儿,具体参考以前可用性那个环节讲解的 kafka 的高可用保障机制。多副本 -> leader & follower -> broker 挂了从新选举 leader 便可对外服务。

  • 能不能支持数据 0 丢失啊?能够的,参考咱们以前说的那个 kafka 数据零丢失方案。

  mq 确定是很复杂的,面试官问你这个问题,实际上是个开放题,他就是看看你有没有从架构角度总体构思和设计的思惟以及能力。确实这个问题能够刷掉一大批人,由于大部分人平时不思考这些东西。

相关文章
相关标签/搜索