栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

k8s

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

k8s

一、背景

最近flink在执行任务时频繁报错,提示连接taskmanager超时,在flink任务报错5-6次后,该任务变以faled状态结束,导致我们得数据没有进行实时传输

二、问题排查

通过查看flink job-mangager和task-manager日志查看返现刚刚启动没有久得flink任务存在连接taskmanager超时问题,观察flink得task-manager得pod状态,确实是刚刚启动几十分钟,为什么taskmanager会发生重启呢,而其他的taskmanager均在正常运行使用kubectl get pod -o wide -n ns| grep flink发现重启的task-manager均在同一节点,于是便怀疑这台节点有问题。
首先查看node状态,正常OK
再查看组件运行状态,kubelete、flanneld、kube-proxy等,OK没有重启现象
既然k8s集群没问题,那么就是网络有问题,仔细排查,发现到网关也正常,通过命令ifconfig发现很重要的问题

这个bond0网卡有个dropped 6但是其他机器都是0,于是上网查了以下发现:TX dropped “发送时,丢弃的数据包数“。
这样原因就找到了,既然是网络问题,那就从网络排查,因为是bond模式所以不应该存在底层网络链接的问题,那就只能是Bond模式有问题了。
使用命令查看:cat /proc/net/bonding/bond0

哦豁、问题出来了,配置的bond1模式没有生效,因为网络那边的人说,交换机只识别bond1模式,具体不清楚,查看Bond配置没问题,那就使用命令:modprobe -r bonding使bond1模式生效。然后重启网卡,成功改为bond1模式,至此没有丢包现象,观察一天后,taskmanager正常运行,问题圆满解决。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/826711.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号