kafka高吞吐量的缘由

时间 2019-12-05

标签 kafka 吞吐量缘由栏目 Kafka 繁體版

原文原文链接

kafa 吞吐量高的缘由缓存

kafka的消息是不断追加到文件中的，这个特性使kafka能够充分利用磁盘的顺序读写性能网络

顺序读写不须要硬盘磁头的寻道时间，只需不多的扇区旋转时间，因此速度远快于随机读写并发

在Linux kernel2.2 以后出现了一种叫作"零拷贝(zero-copy)"系统调用机制，就是跳过“用户缓冲区”的拷贝，创建一个磁盘空间和内存的直接映射，数据再也不复制到“用户态缓冲区” app

kafka中的topic中的内容能够被分为多分partition存在,每一个partition又分为多个段segment,因此每次操做都是针对一小部分作操做，很轻便，而且增长并行操做的能力性能

kafka容许进行批量发送消息，producter发送消息的时候，能够将消息缓存在本地,等到了固定条件发送到kafka.net

Kafka还支持对消息集合进行压缩，Producer能够经过GZIP或Snappy格式对消息集合进行压缩压缩的好处就是减小传输的数据量，减轻对网络传输的压力code

一个topic能够分割成多个partition,若是不划分以前，一个topic只能在一台broker上面，可以存储的信息体就会受到单机的限制。分割成多个partition的话，每一个partition能够分布在不一样的broker上面，那么一个topic上面的内容能够被存储到不少台机器上面，实现了topic的横向拓展。
多个partition的消费能够并发进行，提交了处理并发能力

parition是文件夹，segment是文件夹里面的文件(一个数据文件+一个索引文件)cdn

若是不划分segment的话，一个分区partition内部的数据都会被记录到同一个文件，那么对应已通过期的数据，删除就会变得很麻烦。若是一个partition中分红多个segment的话，只须要对已通过期的segment文件整个删除就好了blog