Kafka如何做到那么高的性能-电子发烧友网

有人说：他曾在一台配置较好的机子上对 Kafka 进行性能压测，压测结果是 Kafka 单个节点的极限处理能力接近每秒 2000万条消息，吞吐量达到每秒 600MB。

那 Kafka 为什么这么快？如何做到这个高的性能？

本篇文章主要从这 3 个角度来分析：

生产端

服务端 Broker

消费端

先来看下生产端发送消息，Kafka 做了哪些优化？

（1）生产端 Producer

partition写入与消费

先来回顾下 Producer 生产者发送消息的流程：

首先指定消息发送到哪个 Topic。

选择一个 Topic 的分区 partitiion，默认是轮询来负载均衡。

也可以指定一个分区 key，根据 key 的 hash 值来分发到指定的分区。

也可以自定义 partition 来实现分区策略。

找到这个分区的 leader partition。

与所在机器的 Broker 的 socket 建立通信。

发送 Kafka 自定义协议格式的请求（包含携带的消息、批量消息）。

将思绪集中在消息发送时候，可发现这两个华点：批量消息和自定义协议格式。

批量发送：减少了与服务端 Broker 处理请求的次数，从而提升总体的处理能力。

调用 send() 方法时，不会立刻把消息发送出去，而是缓存起来，选择恰当时机把缓存里的消息划分成一批数据，按批次发送给服务端 Broker。

自定义协议格式：序列化方式和压缩格式都能减少数据体积，从而节省网络资源消耗。

各种压缩算法对比：

吞吐量方面：LZ4 > Snappy > zstd 和 GZIP

压缩比方面：zstd > LZ4 > GZIP > Snappy

（2）服务端 Broker

Broker 的高性能主要从这 3 个方面体现：

PageCache 缓存

Kafka 的文件布局以及磁盘文件顺序写入

零拷贝 sendfile：加速消费流程

下面展开讲讲。

1）PageCache 加速消息读写

使用 PageCache 主要能带来如下好处：

写入文件的时候：操作系统会先把数据写入到内存中的 PageCache，然后再一批一批地写到磁盘上，从而减少磁盘 IO 开销。

数据写入

读取文件的时候：也是从 PageCache 中来读取数据。

如果消息刚刚写入到服务端就会被消费，按照 LRU 的“优先清除最近最少使用的页”这种策略，读取的时候，对于这种刚刚写入的 PageCache，命中的几率会非常高。

2）Kafka 的文件布局以及磁盘文件顺序写入

文件布局如下图所示：

主要特征是：文件的组织方式是“topic + 分区”，每一个 topic 可以创建多个分区，每一个分区包含单独的文件夹。

Kafka 在分区级别实现文件顺序写：即多个文件同时写入，更能发挥磁盘 IO 的性能。

相对比 RocketMQ： RocketMQ 在消息写入时追求极致的顺序写，所有的消息不分主题一律顺序写入 commitlog 文件， topic 和分区数量的增加不会影响写入顺序。

弊端： Kafka 在消息写入时的 IO 性能，会随着 topic 、分区数量的增长先上升，后下降。

所以使用 Kafka 时，要警惕 Topic 和分区数量。

3）零拷贝 sendfile：加速消费流程

当不使用零拷贝技术读取数据时：

数据读取

流程如下：

消费端 Consumer：向 Kafka Broker 请求拉取消息

Kafka Broker 从 OS Cache 读取消息到应用程序的内存空间：

若 OS Cache 中有消息，则直接读取

若 OS Cache 中无消息，则从磁盘里读取

再通过网卡，socket 将数据发送给消费端Consumer

当使用零拷贝技术读取数据：

数据读取2

Kafka 使用零拷贝技术可以把这个复制次数减少一次，直接从 PageCache 中把数据复制到 Socket 缓冲区中。

这样不用将数据复制到用户内存空间。

DMA 控制器直接完成数据复制，不需要 CPU 参与，速度更快。

（3）消费端 Consumer

消费者只从 Leader分区批量拉取消息。

为了提高消费速度，多个消费者并行消费比不可少。Kafka 允许创建消费组(唯一标识 group.id)，在同一个消费组的消费者共同消费数据。

举个栗子：

有两个 Kafka Broker，即有 2个机子

有一个主题：TOPICA，有 3 个分区(0, 1, 2)

如上图，举例 4 中情况：

group.id = 1，有一个消费者：这个消费者要处理所有数据，即 3 个分区的数据。

group.id = 2，有两个消费者：consumer 1消费者需处理 2个分区的数据，consumer2 消费者需处理 1个分区的数据

group.id = 3，有三个消费者：消费者数量与分区数量相等，刚好每个消费者处理一个分区

group.id = 4，有四个消费者：消费者数量 > 分区数量，第四个消费者则会处于空闲状态

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7223

浏览量
90172
压缩

压缩

+关注

关注
2

文章
102

浏览量
19482
kafka

kafka

+关注

关注
0

文章
52

浏览量
5269

原文标题：Kafka 为什么那么快？

文章出处：【微信号：AndroidPush，微信公众号：Android编程精选】欢迎添加关注！文章转载请注明出处。

如何做到一个好的照明设计

如何做到一个好的照明设计,本文中作者从一个较高的角度为读者详细讲解了设计过程的整个构思。

发表于 09-13 13:58 •1194次阅读

kafka设计原理的深度探讨

Kafka简介 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高

发表于 10-08 07:50 •2102次阅读

请问I/Q demodulator如何做到频率与相位的同步？

请问各位I/Qdemodulator 如何做到频率与相位的同步？频率可以使用频综做到本振与载波的频率一致，但是相位如何保证，如果有一个固定的相位差，那么星座图将有一个角度的转动，请问这个问题是在数字域解决的还是有其他方法？谢谢！

发表于 09-28 15:01

基于闪存存储的Apache Kafka性能提升方法

作者：Dennis Lattka我是美光科技的首席存储解决方案工程师Dennis Lattka。这个头衔的真正含义是，我要致力于确定如何利用闪存存储改善工作负载应用的性能和结果。为此，我决定对大数

发表于 07-24 06:58

Kafka的全局有序

Kafka如何做到全局有序

发表于 10-24 13:51

Bus/总线布线时如何做到等长

Bus/总线布线时如何做到等长 Bus走线模式是在13.6版本中可以实现的模式，现在14.x以及15.0都已

发表于 09-28 12:45 •1714次阅读

手机是如何做到显示电池剩余电量的

手机是如何做到显示电池剩余电量的

发表于 01-22 21:11 •26次下载

小间距LED如何做到低亮高灰

小间距LED在我们日常生活中已经随处可见。本文主要介绍了小间距LED的特点、小间距LED显示屏优势以及小间距LED是如何做到低亮高灰方法，最后则介绍了LED小间距技术的难点。

发表于 12-28 10:07 •4565次阅读

最美布线，别人是如何做到的

最美布线，别人是如何做到的

发表于 02-28 16:47 •2361次阅读

Kafka的概念及Kafka的宕机

很好奇Kafka的高可用实现和保障。从 Kafka 部署后，系统内部使用的 Kafka 一直运行稳定，没有出现不可用的情况。但最近系统测试人员常反馈偶有

发表于 08-27 11:21 •2224次阅读

探究Kafka宕机引发的高可用问题

一、Kafka宕机引发的高可用问题问题要从一次Kafka的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的RabbitMQ ，而是采用了设计之初就为日志

发表于 10-20 15:41 •1543次阅读

Kafka 的简介

，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区，及分布式消费，同时

发表于 07-03 11:10 •722次阅读

Kafka高性能背后的技术原理

Kafka 是一款性能非常优秀的消息队列，每秒处理的消息体量可以达到千万级别。

发表于 10-23 09:37 •499次阅读

蓝牙AOA定位系统如何做到高精准度?

蓝牙AOA定位系统是一种高精度的室内定位技术，其高精准度是通过一系列高科技的技术和方法实现的。以下是给大家分析的几点关于如何做到高精准度的几个关键点：

发表于 12-13 11:42 •298次阅读

超详细“零”基础kafka入门篇

响应数据流的实时流应用程序要了解Kafka如何做这些事情，让我们深入探讨Kafka的能力。（3）首先是几个概念：

发表于 12-18 09:50 •1157次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

Kafka如何做到那么高的性能

评论

如何做到一个好的照明设计

kafka设计原理的深度探讨

请问I/Q demodulator如何做到频率与相位的同步？

基于闪存存储的Apache Kafka性能提升方法

Kafka的全局有序

Bus/总线布线时如何做到等长

手机是如何做到显示电池剩余电量的

小间距LED如何做到低亮高灰

最美布线，别人是如何做到的

Kafka的概念及Kafka的宕机

探究Kafka宕机引发的高可用问题

Kafka 的简介

Kafka高性能背后的技术原理

蓝牙AOA定位系统如何做到高精准度?

超详细“零”基础kafka入门篇