温馨提示×

Kafka监控配置哪些指标关键

小樊
54
2025-08-20 07:43:39
栏目: 大数据

Kafka监控需重点关注以下关键指标,覆盖集群、生产者、消费者及ZooKeeper等组件,确保系统稳定运行:

一、Broker核心指标

  • 资源使用:CPU、内存、磁盘使用率,网络I/O及磁盘I/O负载。
  • 副本同步UnderReplicatedPartitions(未同步分区数,>0表示副本异常)、ISRShrinksPerSec/ISRExpandsPerSec(ISR收缩/扩展频率)。
  • 集群状态ActiveControllerCount(活跃Controller数量,正常应为1)、OfflinePartitionsCount(离线分区数,>0需排查)。
  • 请求处理MessagesInPerSec(消息吞吐量)、BytesIn/BytesOutPerSec(流量监控)、RequestHandlerAvgIdlePercent(Handler空闲率,过低表示压力大)。

二、生产者关键指标

  • 发送效率record-send-rate(消息发送速率)、request-latency-avg(请求平均延迟)、batch-size-avg(批量大小)。
  • 可靠性record-error-rate(错误率)、retries(重试次数),需关注acks配置是否为all以保证数据不丢失。

三、消费者关键指标

  • 消费进度records-lag(消费滞后量,>0表示积压,需告警)、fetch-rate(拉取速率)、commit-rate(Offset提交频率)。
  • 性能状态poll-latency-avg(拉取延迟,>100ms需关注)、heartbeat-rate(心跳频率,异常可能触发重平衡)。

四、Topic/分区指标

  • 流量与积压LogEndOffset(最新位点)、LogStartOffset(起始位点)、Size(分区占用磁盘大小)。
  • 健康状态IsrShrinksPerSec(ISR缩减频率,频繁收缩需排查Follower异常)。

五、ZooKeeper指标(v3.x前需关注)

  • 节点状态:ZK节点在线状态、会话超时次数。
  • 请求性能ZookeeperRequestLatency(请求延迟)、ZookeeperOutstandingRequests(未处理请求数)。

六、JVM监控

  • 内存与GC:堆内存使用率、Full GC频率及耗时,避免频繁GC导致性能抖动。

工具推荐:通过Prometheus+Grafana采集JMX指标,结合Kafka自带命令行工具(如kafka-consumer-groups.sh)辅助验证。

以上指标覆盖Kafka核心运行状态,可根据业务场景调整告警阈值,例如对records-lagUnderReplicatedPartitions设置严格告警规则。

0