2週連続で故障


このBlogが載っているサーバのHDDが2週連続で故障してしまった・・・

データを格納しているドライブは、ZFSのRAID-Zを使ったファイルシステムで4台のHDDで構成していた。
いわゆるRAID5と同じように実データとパリティーを分散させて記録することで、ディスク故障に対する耐障害性を高めたシステムなので、故障に対する備えは比較的疎かにしていた。

そのファイルシステムで1台目のHDD故障が発生したのが12日頃のこと。
とりあえずZFSに頑張ってもらいながらデグレードした状態で動かしつつ新品のHDDを注文し21日の夜に交換を行った。
再構築は14時間ほどかかったが無事完了し復旧した。

安心したのも束の間、23日には別のHDDが故障・・・
デグレード状態になりながらも何とか動いていたので、再度HDDを手配し25日の夜に交換を行い再構築を実行した。
ところが12時間経っても再構築は終わらない・・・
24時間経ってもダメ・・・48時間経過しても再構築が終わる気配が無い・・・

このまま待っていても再構築は終わりそうに無いので断念して、デグレード状態からバックアップがとれるデータを救い出してファイルシステム自体の作り直しを決断。
しかし、ここで不安材料が一つ。
RAID-Zなら1台のHDD故障でもパリティを使ってデータを復旧できるはずなのに、今回は復旧できなかった。
実際サルベージしたファイルのいくつかは壊れていて取り出しに失敗していた。
RAID-Zに頼り切るのはまずいのではないだろうか・・・

と言う訳で、再作成したファイルシステムはHDD2台一組でミラー構成を作り、2つのミラー構成ドライブをストライプで一纏めにして一つのドライブとしている。
使える容量は減ってしまったものの、1台の故障であればミラーされている他方のHDDから修復が可能なはずなので、今までより安心できるのではと思っている。

サルベージに失敗したファイルの多くは修復できたが、データベースは一部データを失ってしまい半年ほど前のフルバックアップに戻ってしまった。
これをどうやって復旧させるかが問題だ (T_T)
あと、今後のバックアップについても検討せねば。

しかし、サルベージにに失敗したファイルの多くが更新日が新しいものに集中しているのは何故だろう。
なにかZFSの振る舞いに特徴が有るのだろうか。

コメント

コメントを残す

メールアドレスが公開されることはありません。