说起来不怕你笑话,我干了这么多年收费处的设备维护,最怕的不是大故障,而是那种“重启就好,但撑不过两小时”的软故障。今年七月份,3号车道就给我来了这么一出。
那天中午,对讲里喊“3道工控机又死了”,我过去一看,当班的老李正蹲在那儿重启,嘴里嘟囔着“邪了门,一过重车就卡”。我问他什么现象,他说画面冻住,鼠标动不了,重启后能撑个把钟头。我当时没急着动手,先问了两句:今天过了多少辆大货?机柜门平常关不关?老李说关了,但上午太阳正晒,机柜外壳摸着烫手。我打开机柜门,手背往工控机散热口一探——风是有,但明显感觉排出来的热气里带着一股灰尘烘烤的味道。拆开侧板一看,cpu散热器上的灰结成了毛毡,整个鳍片完全糊死。这毛病不是一天两天了,日常除尘只吹了机箱外面,里面根本没人动过。
我没当场修,而是把当班的三个收费员叫过来,当着他们的面拿毛刷和吸尘器把散热器清干净,然后开机进bios看cpu温度——从82度直接掉到54度。我说:“以后每周一停机五分钟,开盖清内部,谁也别偷懒。滤网吹得再干净,里面这坨灰不弄,照样死给你看。”从那以后,我们定了规矩:每周一上午低峰期,每个车道停机五分钟,开盖清灰加风扇注油。三季度工控机死机次数从十二次降到了两次。这事儿不大,但让我琢磨出一个道理——很多时候不是设备不行,是我们对“维护”的理解太表面。
真正让我上火的是八月份的软件升级。省中心统一推送了货车计重新算法,说是优化了轴型识别。升级完当天下午,4号车道就开始作妖——一辆正经的六轴半挂车过去,称重数据偶尔跳成三轴,费额直接少了一大截。司机倒是高兴,可我们不敢放啊。我带着技术员小王蹲在车道里,一边过车一边拿笔记本抓通信包。对比新旧版本的日志,发现新软件在处理称重仪表发来的连续数据帧时,丢包后的重传机制有bug——后三轴的数据帧一旦丢了就不重发,系统默认只认前三轴。
当时已经是下午四点半,眼看着晚高峰要来了。怎么办?我先做了一件事:把4号车道切到备用模式,用手持收费机顶着。然后远程联系厂家技术支持,把抓到的异常包和十几条过车视频一起发过去。厂家承认问题,说补丁要两天才能出。我直接说等不了,当晚就要回滚旧版本。回滚之前,我留了个心眼——把新版本的配置文件备份了一份,因为里头有些参数是调过的,回头打补丁还得用。回滚后车道恢复正常,但我没算完。等补丁来了,我挑了个凌晨两点车少的时候,拿1号车道做灰









