IPMIの必要性


昨日の夜、NOCの中を見てみると、DellのPowerEdge 1850のランプがオレンジで点滅していた。
これって、何らかの問題が発生したときに光るはずなのだけれども、何が原因かすぐに分からず。
結局同型機が浮いていたので、ディスクを差し替えて、問題のマシンを運用からはずした。
で、Diagnostics Utilityを起動して、IPMIのログを見てみると、メモリのECCがエラーを吐いていた。
ECCだったので問題が表面化しなかったのだが、早期に問題を発見できて良かった。
メモリテストを実行してもFailする。
こういう原因をすぐに特定しづらいものに対してIPMIって便利だとおもった。
あんまりEnableにしてなかったのだが、サーバを停止しなくても検出できる運用をしないと……