量级不大的topic突然出现延迟情况
问题描述:
topic 发生消费延迟,但其数据量较小,不清楚为何延迟
原因分析:
- 观察发现,该消费者机器上所有topic里只有该topic延迟,所以应该不是机器级别的,可能是消费配置或者es那边该索引有问题查看logstash 消费日志,发现该索引报一下错误 retrying failed action with response code: 503 ({“type”=>“unavailable_shards_exception”, “reason”=>"[rongapp_wf-2022.02.17][3] primary shard is not active Timeout: [1m], request: [BulkShardRequest [[rongapp_wf-2022.02.17][3]] containing [39] requests]"})到es 查看该索引,发现索引状态为red状态,查看es日志 发现是因为node机器的max_shards_per_node:1000 到了上限,马上修改了该参数到10000,并配置了集群当前总分片数占比总分片数上限 90%的监控配置 索引分片red状态的监控
解决方案:
- 发现只有单个topic消费异常后,需要迅速去定位到是该topic自身消费配置或者索引的问题查看es分片状态后,发现只有该分片问题,需要迅速定位日志,发现问题原因,尽快调整参数后置配置相关监控



