调节kafka消费信息的大小--688IT编程网

调节kafka消费信息的⼤⼩

Kafka设计的初衷是迅速处理短⼩的消息，⼀般10K⼤⼩的消息吞吐性能最好（可参见LinkedIn的kafka性能测试）。但有时候，我们需要处理更⼤的消息，⽐如XML⽂档或JSON内容，⼀个消息差不多有10-100M，这种情况下，Kakfa应该如何处理？

针对这个问题，有以下⼏个建议：

1. 最好的⽅法是不直接传送这些⼤的数据。如果有共享存储，如NAS, HDFS, S3等，可以把这些⼤的⽂件存放到共享存储，然后使⽤

Kafka来传送⽂件的位置信息。

2. 第⼆个⽅法是，将⼤的消息数据切⽚或切块，在⽣产端将数据切⽚为10K⼤⼩，使⽤分区主键确保⼀个⼤消息的所有部分会被发送到

同⼀个kafka分区（这样每⼀部分的拆分顺序得以保留），如此以来，当消费端使⽤时会将这些部分重新还原为原始的消息。

3. 第三，Kafka的⽣产端可以压缩消息，如果原始消息是XML，当通过压缩之后，消息可能会变得不那么⼤。在⽣产端的配置参数中使

⽤dec和pics可以开启压缩功能，压缩算法可以使⽤GZip或Snappy。

不过如果上述⽅法都不是你需要的，⽽你最终还是希望传送⼤的消息，那么，则可以在kafka中设置下⾯⼀些参数：

broker 配置:

message.max.bytes (默认:1000000) – broker能接收消息的最⼤字节数，这个值应该⽐消费端的ssage.max.bytes更⼩才对，否则broker就会因为消费端⽆法使⽤这个消息⽽挂起。

log.segment.bytes (默认: 1GB) – kafka数据⽂件的⼤⼩，确保这个数值⼤于⼀个消息的长度。⼀般说来使⽤默认值即可（⼀般⼀个消息很难⼤于1G，因为这是⼀个消息系统，⽽不是⽂件系统）。

replica.fetch.max.bytes (默认: 1MB) – broker可复制的消息的最⼤字节数。这个值应该⽐message.max.bytes⼤，否则broker会接收此消息，但⽆法将此消息复制出去，从⽽造成数据丢失。

Consumer 配置:

所以，如果你⼀定要选择kafka来传送⼤的消息，还有些事项需要考虑。要传送⼤的消息，不是当出现问题之后再来考虑如何解决，⽽是在⼀开始设计的时候，就要考虑到⼤消息对集和主题的影响。

性能: 根据前⾯提到的性能测试，kafka在消息为10K时吞吐量达到最⼤，更⼤的消息会降低吞吐量，在设计集的容量时，尤其要考虑这点。

kafka为什么那么快可⽤的内存和分区数：Brokers会为每个分区分配replica.fetch.max.bytes参数指定的内存空间，假设replica.fetch.max.bytes=1M，且有1000个分区，则需要差不多1G的内存，确保分区数*最⼤的消息不会超过服务器的内存，否则会报OOM错误。同样地，消费端的ssage.max.bytes指定了最⼤消息需要的内存空间，同样，分区数*最⼤需要内存空间不能超过服务器的内存。所以，如果你有⼤的消息要传送，则在内存⼀定的情况下，只能使⽤较少的分区数或者使⽤更⼤内存的服务器。

垃圾回收：到现在为⽌，我在kafka的使⽤中还没发现过此问题，但这应该是⼀个需要考虑的潜在问题。更⼤的消息会让GC的时间更长（因为broker需要分配更⼤的块），随时关注GC的⽇志和服务器的⽇志信息。如果长时间的GC导致kafka丢失了zookeeper的会话，则需要配置zookeeper.session.timeout.ms参数为更⼤的超时时间。

⼀切的⼀切，都需要在权衡利弊之后，再决定选⽤哪个最合适的⽅案。

688IT编程网

调节kafka消费信息的大小

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表