监控架构采用 agent ->中间结点 ->server的架构,部署后发现 server监控数据不全,agent某些监控项缺失,重启后全部无数据,在agent端日志查看报 timeout错误
- 在agent端可以ping通对端
- 在agent端可以curl通对端10051端口
- 在agent端可以telnet 10051且不报错
1 复现现象: agent只配一个监控项时正常,超过3个则报错
2 重装server,重装agent,重启中间节点nginx,不行
3 更改 agent与server端配置文件中的timeout参数改为30s,不行
4 在中间节点安装agent,直接上报到server,数据正常,排除server问题,锁定问题在
agent->中间节点
5 在中间节点与agent上执行抓包操作,
抓包看tcp交互没问题,但是每次间隔大概是30s,是设置的timeout时间
发现入虚机方向重传现象
排查发现问题:
网卡MTU设置为1500,太小,改为9000后数据正常
#这个输出里的local ip的所在网卡 ovs-vsctl show | grep local ifconfig ethx mtu 9000
总结:
1 未安装telnett但有python的机器可以用python实现telnet:
from telnetlib import Telnet
Telnet('169.254.169.254', 10051)
2 MTU:
MTU,最大传输单元,数据链路层的概念。MTU限制的是数据链路层的payload,也就是上层协议的大小,例如IP,ICMP等。MTU其实就是在每一个节点的管控值,只要是大于这个值的数据帧,要么选择分片,要么直接丢弃 什么是MTU?为什么MTU值普遍都是1500?_passionkk的专栏-CSDN博客_mtu值
3 Nginx好文分享
连前端都看得懂的《Nginx 入门指南》 - 掘金


![记一次疑难问题:zabbix-agent报active check configuration update from[] started to fail(timeout) 记一次疑难问题:zabbix-agent报active check configuration update from[] started to fail(timeout)](http://www.mshxw.com/aiimages/31/679247.png)
