ディスクアレイにおける整合性チェックの定期実施について  
2005年5月11日

ディスクアレイは、データを冗長化させて複数のディスクに格納(RAID1:二重化、RAID5:データ部/パリティ部)することにより、耐障害性を向上する技術です。
例えば、ディスクに次のようなトラブルが発生しても、残りのディスクに書き込まれた内容をもとにデータを復旧し、システムを止めることなく運用を続けることができます。

(a)ディスクが故障(DEAD)した場合の復旧 [ディスク故障(DEAD)時の復旧]
  ディスクが故障してシステムから認識されなくなった場合(DEAD)、ディスクアレイは、残ったディスクだけでデータを復元しながら読み書きを続けます。(縮退運用)
故障したディスクを交換した際(および スタンバイディスクにより自動復旧する際)は、残りのディスク上のデータをもとに故障したディスクのデータを復元し、交換後の新しいディスク(および スタンバイディスク)に書き込みます。(リビルド)
  リビルド処理では、システムが実際に使用している部分だけでなく、(未使用領域も含めて)ディスク上の全領域に対して読み出し/書き込みが行われます。

(b)ディスク上のデータの一部が読み取れなかった場合の復旧 [通常運用中の復旧]
  経年劣化や外傷・振動による破損などにより、ディスク上の一部に不良ブロックが発生し、データが読み取れなくなる場合があります。
ディスクアレイでは、そのようなデータにアクセスした際に、残りのディスクに書かれたデータをもとに不良ブロックに書かれていたデータを復元し、そのデータを代替セクタに書き込みます。

  より信頼性の高いディスクアレイシステムを運用するために..
        「整合性チェック」の定期実施のお願い
  上記のように、ディスクアレイは"ディスク故障(DEAD)時"だけでなく "通常運用中"もデータを自動復旧することにより耐障害性を高めていますが、"通常運用中"の復旧はアクセスされたデータに対して行われ、未使用領域やパリティ部分などの通常運用中にはアクセスされない部分は復旧されません。
そのため、通常運用中にアクセスされない部分に不良ブロックが内在する状態でディスク故障(DEAD)が発生した場合、(縮退運用中やリビルド中に不良ブロックがはじめて検出され)正常にデータを復旧することができずにデータ損失やシステムダウンなどの二次障害に発展する危険性があります。
このような問題(二次障害)は、ディスクアレイの「整合性チェック」機能を定期的に実施することにより、未然に防止することができます。下記の説明書(整合性チェックのスケジューリング、および負荷率設定方法)を参照いただき、システムをより安全な状態で運用くださいますよう、よろしくお願いいたします。
     ⇒ ◆『整合性チェックのスケジューリング、および負荷率設定方法』◆