2014年8月26日

ファイアウォールサーバがまた死にかけた

仕事場から家のLANをVPN経由でアクセスしているが、突然遮断された。仕事場のインターネットが全面的あるいは部分的に使えなくなることはそう珍しいことではないので静観していたら、約30分後に復旧した。ただし、LAN上のほとんどのホストの状態をPINGで監視しているメインサーバの報告によれば、少なくとも10分以上応答がなかったので電源再投入でリブートしたらしい。

サーバのフリーズはそう頻繁にあることではないが、全くない訳ではないから「数年に」一度の事故と考えたが、その後がよろしくない。約2時間後にまた同じ現象が起きた。今度も約30分後に生き返る。明らかに何かがおかしくなっているが、もうリモートで分かることはない。多分ハードウェアの異常だろうという推測は3回目の遮断ではっきりした。

このサーバは、その先代がやはりハードウェアの異常でフリーズを繰り返すようになった後、約1年前に新調したCeleronベースの比較的軽いもの。1年でまた壊れるとは納得が行かないが、ファイアウォールなのでこれがないと我が家のインターネット接続がすべて使えない。新しいものにリプレースするとして、症状から言ってCPUの不良は考えにくくマザーボードの可能性が高いからマザーボードだけ交換するか。しかしこのマザーボードはIntel 1155なのでだんだん入手し辛くなってきている。1150にするとCPUごと替えなければならない。Amazonからメイルオーダで買ったり実験を繰り返す時間的余裕はないから、即交換するとして余った部品をどこで再利用するか、などと考えながら帰宅を急ぐ。

帰宅途中にふと思いついたのは、電源故障もおおいに可能性があるというより、マザーボードの新しさから考えてそちらの可能性が高い。

帰宅してみると4回目の自動リブートでサーバは動作している。とりあえず自動リブートを禁止して様子を見る。

インターネットへのアクセスが遮断された。二階のサーバルームに行ってみる。サーバの電源が落ちている。決まった。電源ユニットに異常がある。

別のPCの構築作業中だったので、早速そちらから正常に動作することが確認されている電源ユニットを外して付け替える。復旧した!

取り外した件の電源をテストしてみる。ACを繋ぎ、得意の24(20)ピンATX電源コネクタの緑・黒ショートで電源を入れると、内部で電源の入るプスっと言う音が聞こえるものの、ファンが回らない。ファンを触ってみると非常に固くて回らない。ファンのベアリングがダメになっているようだ。

幸いなことに部品ストックに同じサイズのファンがあったので交換すると、動いた。件のサーバも順調に動作している。修理した電源ユニットを作業中の別のPCに装着しても平然と動作している。

結局、電源その物は生きていたが、ファンが死んでいたために数十分動作すると内部が温度上昇して保護回路が動作して電源を遮断し、その後我が家の監視システムが異常を検出して電源再投入するも内部が十分冷えるまでは再動作しなかったものと結論された。

教訓というほどではないが、トラブルシュートはセオリーどおりまず大元から疑うべし。そしてスペアの電源ユニットは必ず手元にいつも備蓄しておくべし、となった。