k8s重新上电后部分业务504错误,但有些业务可以正常访问。
问题原因重新上电后k8s 的 flannel 和coredns功能未恢复正常。
解决方案重启coredns flannel 的pod。
定位过程查看pod,发现业务pod和基础pod状态都正常。
kubectl get pod -A
用busybox测试访问
kubectl exec -it busybox -- sh
发现pod不能ping通service,但直接ping service ip是可以ping通的
说明可能是dns出了问题 ,重启k8s 的dns服务:
kubectl -n kube-system delete pod coredns-5787695b7f-8mcjd
可以看到service已经可以正常的解析出来。
此时还有第二个问题,就是部分node上的pod也无法被ping通,查看node网关,正常node应该有所有node的flannel网关
但故障节点也没有去向其他node的网关
重启故障node的flannal插件
kubectl delete pod -n kube-system kube-flannel-ds-amd64-4xl7j kube-flannel-ds-amd64-8ht7z
业务恢复正常。



