去年夏天一个下午,机房空调停机。我赶到时设备温度已经45度,核心交换机的风扇噪音比平时大一倍。我先把机柜门打开,找了两台落地扇对着进风口吹,同时让值班室调移动空调。移动空调拉过来才发现问题——排热管没地方接,机房里没有预留排风孔。我拿防火泥把排热管封在吊顶检修口的缝隙里,热风排进吊顶上面,虽然不理想,但总比留在机房里强。一个小时后温度降到32度,设备稳住了。事后我查了报警记录,40度才触发高温告警,留给应急的时间太短。我把阈值调到35度,并且给每台核心设备加装独立的温度探头,贴在散热片旁边。这些探头走独立的总线,就算交换机死机也能读数。
讲这些不是要说自己多能干,而是想说明网络维修这行,很多功夫在技术之外——现场有什么工具就用什么,没有完美方案,先顶住再完善。
第一个案例,写字楼间歇性断网。用户投诉下午两点到四点,ping网关延迟从1ms跳到300ms以上,几分钟后自己恢复。同事换过网线、换过交换机端口,甚至换了一台接入交换机,都没用。我去蹲了三天。第一天发现断网时间和中央空调启停高度吻合。我用钳形表卡空调配电柜的启动电流,瞬间超过200安。那台空调的电源线和弱电桥架在吊顶里并行超过30米,虽然隔着金属桥架,但大电流产生的电磁干扰足够让千兆网卡大量重传。其实我一开始也没想到是干扰——我先怀疑是交换机环路,用线缆测试仪扫了两遍没发现;又怀疑是arp攻击,抓包看了半天正常;还升级过固件,都没用。直到第三天中午,我蹲在吊顶检修口下面,空调压缩机启动那一刻,笔记本上的ping突然断了三秒。我才把目光转向电源线。解决办法:把那根网线从桥架里抽出来,换成屏蔽六类线,单独走pvc管,远离空调电源线30公分以上。屏蔽层单端接地,我在弱电井的接地排上找了颗螺丝拧紧。改完后再也没断过。后来我总结了一条:间歇性故障排查,顺序应该是先看环境干扰,再看配置,最后换硬件。反过来做最浪费时间。
第二个案例,超市收银卡顿。连锁超市的店长抱怨了快一年,每天晚上八点前后收银系统卡五到十分钟。前几个同事都说服务器负载高,让总部加钱升级服务器。我去了现场,趴在收银台下面看网络——六台收银机全接在一个塑料壳的百兆交换机上,这个交换机再一根网线连到弱电井。晚高峰每台收银机同时上传销售数据和监控画面,百兆端口瞬间打满。我用笔记本接上去跑了下流量,峰值到98mbps,丢包率7%。我把那个交换机拆开看了









