众所周知,kafka的受欢迎程度在编程界也是首屈一指的,而且Kafka也拥有强劲的就业机会和职业前景。此外,在互联网时代可以拥有Kafka知识对本身也是一条快速增加的道路。故,本文收集了一些一线互联网大厂常见的Kafka面试题,并提供了详细答案,但愿能帮助到你们!java
答:Apache Kafka是一个发布 - 订阅开源消息代理应用程序。这个消息传递应用程序是用“scala”编码的。基本上,这个项目是由Apache软件启动的。Kafka的设计模式主要基于事务日志设计。面试
答:Kafka最重要的元素是:sql
答:给分区中的消息提供了一个顺序ID号,咱们称之为偏移量。所以,为了惟一地识别分区中的每条消息,咱们使用这些偏移量。编程
答:消费者组的概念是Apache Kafka独有的。基本上,每一个Kafka消费群体都由一个或多个共同消费一组订阅主题的消费者组成。设计模式
答:Apache Kafka是一个使用Zookeeper构建的分布式系统。虽然,Zookeeper的主要做用是在集群中的不一样节点之间创建协调。可是,若是任何节点失败,咱们还使用Zookeeper从先前提交的偏移量中恢复,由于它作周期性提交偏移量工做。安全
答:绕过Zookeeper并直接链接到Kafka服务器是不可能的,因此答案是否认的。若是以某种方式,使ZooKeeper关闭,则没法为任何客户端请求提供服务。服务器
答:Kafka有一些优势,所以使用起来很重要:架构
答:Apache Kafka有4个主要API:并发
答:Kafka消费者订阅一个主题,并读取和处理来自该主题的消息。此外,有了消费者组的名字,消费者就给本身贴上了标签。换句话说,在每一个订阅使用者组中,发布到主题的每一个记录都传递到一个使用者实例。确保使用者实例可能位于单独的进程或单独的计算机上。分布式
答:在Kafka的每一个分区中,都有一个服务器充当领导者,0到多个服务器充当追随者的角色。
答:因为领导者的主要角色是执行分区的全部读写请求的任务,而追随者被动地复制领导者。所以,在领导者失败时,其中一个追随者接管了领导者的角色。基本上,整个过程可确保服务器的负载平衡。
答:基本上,复制日志的节点列表就是副本。特别是对于特定的分区。可是,不管他们是否扮演领导者的角色,他们都是如此。
此外,ISR指的是同步副本。在定义ISR时,它是一组与领导者同步的消息副本。
答:因为复制,咱们能够确保发布的消息不会丢失,而且能够在发生任何机器错误、程序错误或频繁的软件升级时使用。
答:简单地说,这意味着跟随者不能像领导者收集数据那样快速地获取数据。
答:初始化ZooKeeper服务器是很是重要的一步,由于Kafka使用ZooKeeper,因此启动Kafka服务器的过程是:
>bin/zooKeeper-server-start.sh config/zooKeeper.properties
>bin/kafka-server-start.sh config/server.properties
答:每当Kafka生产者试图以代理的身份在当时没法处理的速度发送消息时,一般都会发生QueueFullException。可是,为了协做处理增长的负载,用户须要添加足够的代理,由于生产者不会阻止。
答:容许应用程序将记录流发布到一个或多个Kafka主题的API就是咱们所说的Producer API。
答:Kafka和Flume之间的主要区别是:
工具类型
复制功能
答:毫无疑问,Kafka是一个流处理平台。它能够帮助:
答:它能够以多种方式执行,例如:
答:保留期限保留了Kafka群集中的全部已发布记录。它不会检查它们是否已被消耗。此外,能够经过使用保留期的配置设置来丢弃记录。并且,它能够释放一些空间。
答:Kafka能够接收的最大消息大小约为1000000字节。
答:基本上,传统的消息传递方法有两种,如:
答:ISR指的是同步副本。这些一般被分类为一组消息副本,它们被同步为领导者。
答:对于咱们的集群,Kafka MirrorMaker提供地理复制。基本上,消息是经过MirrorMaker跨多个数据中心或云区域复制的。所以,它能够在主动/被动场景中用于备份和恢复;也能够将数据放在离用户更近的位置,或者支持数据位置要求。
答:咱们能够轻松地将Kafka部署为多租户解决方案。可是,经过配置主题能够生成或使用数据,能够启用多租户。此外,它还为配额提供操做支持。
答:容许应用程序订阅一个或多个主题并处理生成给它们的记录流的API,咱们称之为消费者API。
答:一种容许应用程序充当流处理器的API,它还使用一个或多个主题的输入流,并生成一个输出流到一个或多个输出主题,此外,有效地将输入流转换为输出流,咱们称之为流API。
答:一个容许运行和构建可重用的生产者或消费者的API,将Kafka主题链接到现有的应用程序或数据系统,咱们称之为链接器API。
答:生产者的主要做用是将数据发布到他们选择的主题上。基本上,它的职责是选择要分配给主题内分区的记录。
答:Apache Kafka的另外一个选择是RabbitMQ。那么,让咱们比较二者:
功能
性能速度
答:让咱们比较一下传统队列系统与Apache Kafka的功能:
消息保留
基于逻辑的处理
答:为了克服收集大量数据和分析收集数据的挑战,咱们须要一个消息队列系统。所以Apache Kafka应运而生。其好处是:
答:咱们将日志视为分区。基本上,数据源将消息写入日志。其优势之一是,在任什么时候候,都有一个或多个消费者从他们选择的日志中读取数据。下面的图表显示,数据源正在写入一个日志,而用户正在以不一样的偏移量读取该日志。
答:咱们知道,在Kafka中,消息会保留至关长的时间。此外,消费者还能够根据本身的方便进行阅读。尽管如此,有一种可能的状况是,若是将Kafka配置为将消息保留24小时,而且消费者可能停机超过24小时,则消费者可能会丢失这些消息。可是,咱们仍然能够从上次已知的偏移中读取这些消息,但仅限于消费者的部分停机时间仅为60分钟的状况。此外,关于消费者从一个话题中读到什么,Kafka不会保持状态。
答:所以,调优Apache Kafka的方法是调优它的几个组件:
答:Kafka的局限性是:
答:Apache Kafka的业务包括:
答:Apache Kafka有不少用例,例如:
答:Netflix,Mozilla,Oracle
答:Kafka流的一些最佳功能是
答:连续、实时、并发和以逐记录方式处理数据的类型,咱们称之为Kafka流处理。
答:系统工具备三种类型:
答:为了加强持久性和更高的可用性,这里提供了复制工具。其类型为
答:为了知足Kafka标准的高处理速率需求,咱们可使用java语言。此外,对于Kafka的消费者客户,Java也提供了良好的社区支持。因此,咱们能够说在Java中实现Kafka是一个正确的选择。
答:Kafka的最佳特性是“各类各样的用例”。
这意味着Kafka可以管理各类各样的用例,这些用例对于数据湖来讲很是常见。例如日志聚合、Web活动跟踪等。
答:在设计Kafka系统时,考虑主题复制是很是重要的。
答:生产者向特定主题分区发送的消息的顺序相同。
一线互联网大厂,面试所考到的知识可不止Kafka,固然多拥有一个技术点,对本身的面试也是一件好事;那么针对Java成员,笔者整理了一套完整的已下线互联网企业面试专题;包含了Kafka、Mysql、Tomcat、Docker、Spring、MyBatis、Nginx、Netty、Dubbo、Redis、Netty、Spring cloud、分布式、高并发、性能调优、微服务等架构技术
须要这份面试题的朋友请点击下方传送门;便可免费领取完整的面试专题文件
如下是部分面试题截图