栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

记一次raid故障,导致hbase服务异常

记一次raid故障,导致hbase服务异常

问题描述:在收到I/O等待负载大于50%时,我们同等时间收到了业务和研发的通知,目前问题节点io问题对业务有影响。处理步骤如下:

问题描述1:ping正常,ssh登陆在10秒以上,登陆节点明显卡顿

处理方法:紧急停掉HRegionServer服务。

再次检查io情况:发现iowait已经明显比较低,问题似乎已经解决。

 iostat -x 1 10

问题描述2:大概10min之后(粗略时间)iowait突然飙升

问题再次出现,但是可以明显感觉到执行命令没有停HRegionServer服务之前卡。此时还有一个关键的信息,读写很低,但是await非常高,达到几千上万,平常最高也就几十而已。

处理方法:凭借运维经验,猜测硬件肯定有问题。于是联系idc紧急排查硬件问题,在同时,我去停了hdfs和yarn的服务。

问题描述3:联系idc检查硬件,最后发现时raid故障

处理方法:在idc解决好raid故障后,启动服务,一切正常。

 

总结:raid故障总是在业务层先感知到,告警无法提前预判。运维侧收到的是io告警,此时排查问题也需要时间。最后怀疑硬件问题的时候,时间已经过去很久了,无法快速解决问题。也和idc有过沟通,raid故障也是依赖于告警发现的,raid故障基本上滞后了近半个小时。如何能检测出raid卡故障,我们排查的效率也可以快速提升。

最后祝大家新年快了,2021年的最后一天就这样结束了。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/689853.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号