从事实上来讲,2021不管怎么说都无法称得上是成功的一年。虽然有一点收获但留下了不少遗憾。现在来回顾一下,说说印象比较深的几件事把。
减重15KG失败,啪啪打脸的O02021年初立下的今年第一个目标就是要减重15KG,可惜体重就像一个V字一般,在12月又回到了年初的水平。太尴尬了,成年人的世界哪有那么容易。2022零食什么的就别往家拿了。
UMP系统迁移,为路上的汽车换轮胎由于之前参加的华为云体验项目到期了,到12月12日现有服务器就集群无法继续使用,需要新采购ECS服务器并将服务迁移过去。这个事虽然7月华为经理已经通知到位了,但由于自研立项的事一直拖着没有完成,导致服务采购的事也一直没有推进,直到12月初服务器才采购到位,最后留给迁移的时间不足2周。这还不算什么,更精彩的是最后一周还接到通知,用户要进行平台稳定性测试,需要连续作业一周。这也意味着,这一周中会出现,服务的切换,昨天还在用老平台作业今年就要使用新平台,新老平台的状态必须完全一致,由于平台的业务特殊性是控制用户的设备实现完全自主的作业,涉及到用户资产的事都不是小事,于是反馈客户能否等一周,但得到的反馈是“”不行,计划已经上报“。OK,那就只能上了。
终于在最后一周之前完成了新服务的部署,但一个噩耗传来,得有人去一趟XP做项目技术支持,不去的话就肯定没有机会了,考虑了一大圈人选依然没有合适的人,只能我过去了。虽然对于平台的迁移已经做了各种预案,但还是放心不下,也只能奔赴XP远程支持。
在正式迁移前的一天,争取了一次实验的机会,但实验的时候真的出现了原来没有见过的问题,当时我在用户那边开会直接吓坏了,赶紧打电话沟通询问情况,好在伙伴们给力手动控制回收了,终于回到了酒店,翻出系统操作日志和遥测数据,仔细核对了2小时,原来真的平台的bug,但这个为只会在控制信号很弱的时候才能出现,这也能碰到也没谁了,于是紧急修复发布补丁,在跟小伙伴沟通正式迁移作业需要格外注意的操作。
好在正式迁移时一切顺利,没有任何问题,用户都没有意识到是新平台在作业- -!
这件事告一段落了。轮子换完,UMP继续跑。
今年7月份的时候就受到有用户反应JGDQ系统有时候会在打开某个界面的时候弹出502的错误,但跑去复现了一下却没有复现,过几天又有人反馈同样的问题,就去试了一下果然有,于是打开开发者面板沿着追踪请求检查了下去,最后发现这个502是某个Nginx报的,这个nginx是用来反向代理的,从用户的服务器到我们的实验室服务器,由于实验室没有静态IP,只能使用乞丐版(IP盒子)实现公网服务暴露。正好手上还有别的事,于是找到小伙伴让他去追踪这个问题,过了5分钟小伙伴就说搞定了,详细问了问,小伙伴说从日志没看出来什么问题,查了nginx502也没有看出门道,索性重启一下就好了,好吧。正好手上还有其他的一堆事,于是匆忙反馈应该好了,用户一试果然好了,于是各自散去。但心里总有种不详的预感,这个问题不像这么简单的。
时间来到9月,又有人反应502,我去还有完没完了,于是又找来上次的同学,这个问题务必解决,不能坏了我们的名声。。。,同学也重视起来了,切实的掌握了复现技巧,只有特定的账号才会触发。但对着nginx一阵鼓捣,从http代理改为stream代理,刚开始可以,但过了一段时间就不行了 ,尝试了各种超时参数依然不行。我一看这样不行啊,502与504不同不是访问不到,而是连接已经建立了,但没有数据返回。我感觉问题可能出在了IP盒子上,于是让同学在开发环境下搭建相同的服务和代理nginx,果然没有问题,再在用户服务器上安装wireshark,抓包最后确定是没有收到IP盒子返回的数据。于是在我们转发后的服务器上抓包发现,根本没有收到请求,所以没有数据。于是最终定位IP盒子没有把请求转给实验室服务器。我去这么诡异,感觉就像有防火墙一样,这个IP盒子已经用了好几年从来没见过这种问题,虽然乞丐版但还是很好使的。找厂家技术,等了半天也没反应。。。
于是我们又在用户服务器上抓包,比较正常的情况和异常的情况,发现异常情况下header总是特别大,于是又让nginx不转发这个header,nginx -s reload。我去,搞定了。历经3个月,终于搞定了。
于是我们给Ip盒子提了一个他们产品的bug。。。。
今年真的是运气不太好,10月是时候家里几乎全员生病,有的是之前预约的手术。有的是感冒肺炎,有的是感冒,小孩也是感冒。哎,那段真的是身心俱疲。
结尾希望2022运气好一点



