休日に限って発生するサーバハード障害対応!今回は仕事中でしたが、仕事納めの日。
Google 等のデータセンターでの故障率が 8% という記事を以前見た事があります。HDD 300 本程度のサーバとすると 8% で 年間 24 本。弊社でも同様と%値ですので、Google が出した故障率はあっていそうです。
でもメーカー発表の値は 0.1% ~ 1%、多くて 3% 程度。ホント、差がありすぎる。
今回の RAID5 の 1 本障害、よりによって構成している RAID の他の HDD にもミディアムエラーが見受けられる点と、物理的には 1 台だけど、仮想環境なので複数の OS 障害に発展する可能性が高い状況。
心臓がドキドキバクバク、手も震える対応でした。
最低限 HotSpare か、RAID6 はほしいところだ。
仕事納めの日に、なんて日だ。
リビルド完了を待って無事1本交換、完了。