日曜日に HDD がエラーとなり RAID から取り外されたのですが、その後ホット状態で入れ替えを行ったところ突然OSが反応しなくなってしまいました。
慌てて IPMI 経由でリモートの画面を見たところ、カーネルは起動し fsck 待ちの状態で停止していました。このままでは RAID が正常にリビルドに入ったかは不明な為、fsck は止め、そのまま再起動。
RAID BIOS 側からもディスク構成が合わずにRAIDコントローラ側か、HDD側かを選ぶ選択画面になってしまっていました。HDD側から読み込みする必要があるので30秒放置し、リビルド確認して、無事カーネル起動。
fsck して無事 OS 起動となりました。
そもそもなぜホットスワップができなかったのか。非常に気になるところですが再現は不可能。再発対策としては、定期的なOS再起動、RAID-BIOS 再起動だろうな。