WO2014108943A1

WO2014108943A1 - ディスクアレイ制御装置およびサーバ

Info

Publication number: WO2014108943A1
Application number: PCT/JP2013/004601
Authority: WO
Inventors: 秀一稲葉
Original assignee: 株式会社東芝
Priority date: 2013-01-10
Filing date: 2013-07-30
Publication date: 2014-07-17
Also published as: JP2014134945A; JP5535343B1

Abstract

　ディスクアレイ制御装置は：入力データをｎ台の現用記憶装置用に分割して出力し、またｎ台の現用記憶装置からのｎ個のデータを多重化してホスト側へ出力する分割・多重化手段と；ｎ台の現用記憶装置、ｍ台の待機記憶装置、および分割・多重化手段間の接続を切り替える切替手段と；切替手段を制御する制御手段とを備える。制御手段は：ｎ台の現用記憶装置から各現用記憶装置の状態を示す情報を取得する状態取得手段と；取得されたｎ台の現用記憶装置の状態を示す情報から故障する可能性のある現用記憶装置を判定する判定手段と；切替手段によって、故障する可能性のある現用記憶装置と待機記憶装置の１つとを接続し、故障する可能性のある現用記憶装置から待機記憶装置への記憶内容へコピーするコピー手段とを有する。

Description

ディスクアレイ制御装置およびサーバ

関連出願の引用

　本出願は、２０１３年１月１０日に出願した先行する日本国特許出願第２０１３－００２２７０号による優先権の利益に基礎をおき、かつ、その利益を求めており、その内容全体が引用によりここに包含される。

　本発明の実施形態は、ディスクアレイ制御装置およびサーバに関する。

　近年、ビデオデータをはじめとする大量の大容量データを高速に配信することが求められている。このため複数のＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の記憶装置からなるディスクアレイを使用することで、大量の大容量データへの高速アクセスを実現している。また、このようなディスクアレイへの高速アクセスを行うためには、例えば周知のＲＡＩＤ（Redundant Arrays of Independent Disks）のような、ディスクアレイに対し複数のデータの読み書きを行う仕組みが必要である。

特表２００８－５０９４７４号公報

　いくつかのタイプがあるＲＡＩＤの中で、ＲＡＩＤ０を採用すると、ハードウェアの規模を小さくすることができる。しかし、ＲＡＩＤ０では、制御対象のディスクアレイに故障した記憶装置が１つでもあると、ファイルシステム全体が使えなくなるという問題がある。また、この問題に対処するためにディスクアレイに冗長性を持たせると、ＲＡＩＤ１のように全ての記憶装置が二重化され、記憶装置の数が増えるという問題がある。またＲＡＩＤ５などのように、一部の記憶装置の故障に対処できるように記憶装置全体で冗長性をもたせた場合でも、ハードウェアの規模が大きくなるという問題がある。

　本発明が解決しようとする課題は、ハードウェアの規模の大型化を抑え、また信頼性を向上させることができる、ディスクアレイ制御装置およびサーバを提供することである。

　本発明の実施形態のディスクアレイ制御装置は、ストライピングによりデータを分割し、この分割されたデータをｎ台（ｎは２以上）の現用記憶装置に分散して書き込み、またｎ台の現用記憶装置から分割されたデータを読み出すためのディスクアレイ制御装置である。

　本発明のディスクアレイ制御装置は、ホスト側からの入力データをｎ台の現用記憶装置用に分割して分割されたデータを出力し、またｎ台の現用記憶装置からの分割されたｎ個のデータを多重化してホスト側へ出力する分割・多重化手段と、ｎ台の現用記憶装置、ｍ台（ｍは１以上）の待機記憶装置、および分割・多重化手段間の接続を切り替える切替手段と、切替手段を制御する制御手段とを備える。

そして、制御手段は、状態取得手段と判定手段とコピー手段とを有する。状態取得手段は、ｎ台の現用記憶装置から、各現用記憶装置の状態を示す情報を取得する。判定手段は、状態取得手段により得られたｎ台の現用記憶装置の状態を示す情報から、故障する可能性のある現用記憶装置を判定する。コピー手段は、切替手段によって、判定手段により判定された故障する可能性のある現用記憶装置と待機記憶装置の１つとを接続し、故障する可能性のある現用記憶装置から該現用記憶装置に接続された待機記憶装置へ、故障する可能性のある現用記憶装置の記憶内容をコピーする。

図１は、映像配信のためのサーバの一般的な概略構成を示す図である。図２は、ＲＡＩＤ０によって、データが４台のドライブへ記録された状態を示す図である。図３は、一実施形態のサーバの概略構成を示す図である。図４は、一実施形態のサーバのＲＡＩＤカードの概略構成を示す図である。図５は、一実施形態のＲＡＩＤカードによる、ドライブの状態を判定する際の手順を示すフローチャートである。図６は、一実施形態のＲＡＩＤカードによる各ドライブの運用について説明する図である。図７は、一実施形態のＲＡＩＤカードによる、ファイルシステムＦＡＴを利用した故障する可能性の高いドライブからその内容を待機ドライブへコピーする際の動作を説明するフローチャートである。

　以下に説明する実施形態において、サーバのファイルシステムは、複数のＨＤＤやＳＳＤ等の記憶装置（以下、個々のＨＤＤやＳＳＤ等をドライブまたはＤＲＩＶＥと称す）からなるディスクアレイを用いて構築される。通常のデータアクセスでの動作は、ＲＡＩＤ０のシステムの場合と同一である。しかし、ＲＡＩＤ０と異なり、実施形態は、ＲＡＩＤ０でファイルシステムを構築するのに使用している現用ドライブの容量と等しい、或いはそれ以上の容量を持つ１個以上の待機ドライブを利用する。

　また、サーバは、定期的に、データの読み出し異常、書き換えの回数、及び温度を含む情報を、各ドライブが持つＳＭＡＲＴ情報から取得する。またサーバは、サーバに備えられた温度計からサーバ内の温度を取得し、故障する可能性のある現用ドライブを判定する。ＨＤＤやＳＳＤは、障害の早期発見・故障の予測などを目的としてＳＭＡＲＴ（Self-Monitoring, Analysis and Reporting　Technology）と呼ばれる機能を搭載している。サーバは、この機能により、上記ＳＭＡＲＴ情報を取得することができる。

　図１は、映像配信用の装置であるサーバ１００の一例を示す。サーバ１００は、記憶装置に記憶されたコンテンツを読み出して読み出した映像コンテンツをネットワーク（Ｎｅｔｗｏｒｋ）４０経由で配信する。サーバ１００は、マザーボード３０と、記憶装置１０と、記憶装置１０とマザーボード３０との間に配置されたＩ／Ｆ（インタフェース）２０とを備える。マザーボード３０は、ＭＰＵ（マイクロプロセッサ）３１、ＭＥＭ（メモリ）３２、およびＥｔｈｅｒｎｅｔ　Ｉ／Ｆ３３を備える。なお、Ｅｔｈｅｒｎｅｔは登録商標である。

　このサーバ１００は、記憶装置１０に記憶されたデータを高速に読み出すため、記憶装置１０として、複数のＨＤＤやＳＳＤからなるディスクアレイを使用し、またＩ／Ｆ２０として、ＲＡＩＤカードを使用する。これによって、複数のドライブを１つのドライブのように使用する。この機能を提供するＲＡＩＤカードは、例えばＲＡＩＤ０では、ストライピングと呼ばれる機能を提供する。ストライピングは、書き込むデータを分割して分割されたデータを生成し、分割されたデータを複数のドライブに分散して書き込み、また分割されたデータを複数のドライブから読み出す。

　図２は、ＲＡＩＤ０によって、データ（ＤＡＴＡ）が４台のドライブ（ＤＲＩＶＥ１～４）へ記録される状態を示す。ＲＡＩＤ０によるストライピングでは、図２に示すように、データが４つに分割され、４つの分割されたデータが４つのドライブに分散されて記録される。

　次に、一実施形態のディスクアレイ制御装置およびサーバを説明する。　
図３は、一実施形態のサーバ１０１を示す。サーバ１０１は、マザーボード３０、ディスクアレイ１１、およびマザーボード３０とディスクアレイ１１の間に配置されたＲＡＩＤカード２１を有する。マザーボード３０は、ＭＰＵ（マイクロプロセッサ）３１、ＭＥＭ（メモリ）３２、およびＥｔｈｅｒｎｅｔ　Ｉ／Ｆ３３を備える。ディスクアレイ１１は、５台のドライブＤＲＩＶＥ１～ＤＲＩＶＥ５を有する。ＲＡＩＤカード２１は、ディスクアレイ１１をＲＡＩＤ０で動作させる。サーバ１０１は、Ｅｔｈｅｒｎｅｔ　Ｉ／Ｆ３３を介して、図示されない外部のネットワークと接続される。

　サーバ１０１は、ネットワーク経由で映像配信を行う映像配信装置として機能する。ディスクアレイ１１のドライブＤＲＩＶＥ１～ＤＲＩＶＥ５には、コンテンツが記憶される。各ドライブＤＲＩＶＥ１～ＤＲＩＶＥ５には、ＨＤＤ、ＳＳＤなどの記憶装置が使用される。

　サーバ１０１は、通常時は４台のドライブをＲＡＩＤ０（ストライピング）で使用し、さらに１台のドライブを待機ドライブとして使用する。

　ＲＡＩＤカード２１はディスクアレイ制御装置である。ＲＡＩＤ０では、ＲＡＩＤカード２１は、ストライピングと呼ばれる、書き込むデータを分割して分割されたデータを生成し、分割されたデータを複数のドライブに分散して書き込み、また分割されたデータを複数のドライブから読み出す機能を提供する。

　なお、ここでは、現用ドライブとして４台のドライブを用いるサーバを説明するが、ドライブの台数はこれに限るものではなく、８台などの他の台数でもよい。また待機ドライブの台数も、１台ではなく、２台あるいは３台などであってもよい。待機ドライブを複数台用意すれば、以下に説明する待機ドライブが１台の場合と同様に、ＲＡＩＤカード２１及びサーバ１０１は、２台あるいは３台のドライブが同時期に故障する、可能性が生じた場合にも対処できる。

　本実施形態では、図３に示すように、ＲＡＩＤカード２１は、分割・多重化回路２２、マトリクス回路２３、代替制御回路２４、温度センサを有する。ディスクアレイ１１をＲＡＩＤ０で動作させるためのＲＡＩＤカード２１は、マトリクス回路２３によって、分割・多重化回路２２と５台のドライブとの接続を切り替えることができる。５台のドライブのうち、１台のドライブは待機ドライブであり、残りの４台のドライブがＲＡＩＤ０で使用する現用ドライブである。

　分割・多重化回路２２は、ホスト（ＭＰＵ３１）側からの入力データを４台の現用ドライブ用に分割して分割されたデータを生成し、分割されたデータをマトリクス回路２３へ出力する。また分割・多重化回路２２は、４台の現用ドライブからの分割されたデータを多重化し、多重化されたデータをホスト側へ出力する。分割・多重化回路２２は、分割・多重化手段である。

　マトリクス回路２３は、代替制御回路２４の制御により、４台の現用ドライブと、待機ドライブと、分割・多重化回路２２との間の接続を切り替える。マトリクス回路２３は切替手段である。

　代替制御回路２４は、マトリクス回路２３を制御し、分割・多重化回路２２と各ドライブ間の接続を切り替える。図４は、ＲＡＩＤカードの詳細を示す。代替制御回路２４は、コピー回路２６、判定回路２７、ＳＭＡＲＴ情報読出回路２８を有する。代替制御回路２４は、本実施形態において特有の制御を行う。なお、代替制御回路２４は、ＭＰＵ３１からのコマンドに応じて必要な動作を実行する。代替制御回路２４は切替手段を制御する制御手段である。

　通常時は、マトリクス回路２３により、分割・多重化回路２２と４台の現用ドライブが接続される。一定の時間以上、これらの現用ドライブに対するアクセスが無いときに、ＳＭＡＲＴ情報読出回路２８は、これらのドライブからドライブの状態を示す診断レポートであるＳＭＡＲＴ情報を読み出すために、マトリクス回路２３によりＳＭＡＲＴ情報読出回路２８とこれらのドライブとの接続を形成し、ＳＭＡＲＴ情報を取得する。このＳＭＡＲＴ情報は、データの読み出し異常、書き換えの回数、最高温度および現在の温度等を含む。また、ＲＡＩＤカード２１には、サーバ１０１内の温度を測定する温度センサ２５を備えており、判定回路２７は、温度センサ２５で測定された温度も取得する。ＳＭＡＲＴ情報読出回路２８は、各現用記憶装置の状態を示す情報を取得する状態取得手段である。

　４台の現用ドライブから読み出されたＳＭＡＲＴ情報および温度センサ２５で測定されたサーバ１０１内の温度から、判定回路２７が、故障する可能性のあるドライブの有無を判断し、故障する可能性が最も高いドライブを決定する。ここでは、ＤＲＩＶＥ－Ｅが故障する可能性が最も高いドライブである、と仮定する。なお、ＭＰＵ３１がこの判断を行ってもよい。判定回路２７は、故障する可能性のある現用記憶装置を判定する判定手段である。

　故障する可能性の高いドライブ（ＤＲＩＶＥ－Ｅ）が見つかった場合、コピー回路２６は、このＤＲＩＶＥ－Ｅへのアクセスが無く、かつＤＲＩＶＥ－ＥからＳＭＡＲＴ情報が読み出されないタイミングで、ＤＲＩＶＥ－Ｅのファイル管理情報を読み出し、待機ドライブ（ＤＲＩＶＥ－Ｓと記す）にそのコピーを作成するため、マトリクス回路２３によりＤＲＩＶＥ－ＥとＤＲＩＶＥ－Ｓとを接続する。そして、コピー回路２６は、ＤＲＩＶＥ－Ｅに記録されている内容（データおよびファイル管理情報）をＤＲＩＶＥ－Ｓへコピーする。コピー回路２６は、故障する可能性のある現用記憶装置と待機記憶装置の１つとを接続し、故障する可能性のある現用記憶装置の記憶内容を待機記憶装置へコピーするコピー手段である。

　ここで判定回路２７の動作について説明する。ＳＭＡＲＴ情報読出回路２８が、動作している各ドライブ（各現用ドライブ）から読み出されたＳＭＡＲＴ情報に含まれる、データの読み出し異常（エラー訂正の発生数）、書き換えの回数、最高温度を取得し、また温度センサ２５からサーバ１０１内の現在の温度を取得する。そして、図５のフローチャートに示すように、判定回路２７は、これらの情報からドライブが故障する可能性を判定する。故障する可能性の高い場合に、判定回路２７は、そのドライブに記録されている内容を待機ドライブ（ＤＲＩＶＥ－Ｓ）へコピーするコピー回路２６によるコピー動作を起動する。

　具体的には、いずれかのドライブにおいて、データの読み出し異常がある場合（ステップＳ１０１でＹｅｓ）、または書き換えの回数が設定値以上である場合（ステップＳ１０３でＹｅｓ）、または最高温度が設定値以上である場合（ステップＳ１０５でＹｅｓ）、コピー回路２６によるコピー動作を起動して、該当ドライブをＤＲＩＶＥ－Ｅとし、このドライブに記録された内容を待機ドライブ（ＤＲＩＶＥ－Ｓ）へコピーする（ステップＳ１０２、Ｓ１０４、またはＳ１０６）。

　また、これらのいずれの条件も満たされない場合（ステップＳ１０１、Ｓ１０３、およびＳ１０５でＮｏ）には、サーバ１０１内の現在の温度が設定値以上か確認する。現在の温度が設定値以上である場合（ステップＳ１０７でＹｅｓ）には、ドライブの寿命を予測するカウンタのカウント値を上げる（このカウンタのカウント値は各ドライブに設定される）（ステップＳ１０８）。なお、各ドライブのカウンタのカウント値の差は、ドライブの交換によって生じ、最も長く使用されているドライブのカウンタのカウント値が最も大きい。

　一方、現在の温度が設定値以上でない場合（ステップＳ１０７でＮｏ）は、さらにこのカウンタのカウント値が設定値以上であるかを判定する。このカウンタのカウント値が設定値以上である場合（ステップＳ１０９でＹｅｓ）にも、コピー回路２６によるコピー動作を起動して、該当ドライブをＤＲＩＶＥ－Ｅとし、このドライブの内容を待機ドライブへコピーする（ステップＳ１１０）。なお、該当ドライブに対するコピー動作の詳細は、図７を用いて後述する。

　判定回路２７は、以上の処理を、定期的に、現用ドライブとして動作している各ドライブに対して順に行う。

　本実施形態では、ドライブの状態の監視を、ＳＭＡＲＴ情報と温度センサ２５で測定された温度を基に行う。しかしながら、これらに限らず、ドライブの状態を同様に判断するのに利用できるものであれば、それを利用してドライブの状態を監視してもよい。またドライブの状態を示す情報を読み出して（取得して）行う上記判断を、上記手順に限らず、他の判断手順により行ってもよい。

　以上のようにして故障する可能性のあるドライブが見つかると、コピー動作が起動される。以下では、コピー動作の際の本実施形態のＲＡＩＤカード２１による各ドライブの運用について説明する。

　ここでも、図６に示すように５台のドライブＤＲＩＶＥ１～ＤＲＩＶＥ５があり、ＤＲＩＶＥ５が待機ドライブ（ＤＲＩＶＥ－Ｓ）であるとする。

　この状態でサーバ１０１を運用する（ＳＴＡＴＥ１）。

　ＤＲＩＶＥ２で異常が検出されると、このドライブを、故障する可能性のあるドライブ（ＤＲＩＶＥ－Ｅ）として扱うことになる。

　この状態（ＳＴＡＴＥ２）では、ＤＲＩＶＥ２に記憶されている内容（データおよびファイル管理情報）をＤＲＩＶＥ５にコピーする。

　このコピーが完了すると、待機ドライブであったＤＲＩＶＥ５が現用ドライブとなり、故障する可能性のあるＤＲＩＶＥ２は切り離され（ＳＴＡＴＥ３）、ＤＲＩＶＥ２が他の正常なドライブと交換可能な状態となる。

　そして、このＤＲＩＶＥ２の交換が終了すると、交換された正常なドライブであるＤＲＩＶＥ２が新しい待機ドライブＤＲＩＶＥ－Ｓとなる（ＳＴＡＴＥ４）。

　次に、ＤＲＩＶＥ－ＥであるＤＲＩＶＥ２からＤＲＩＶＥ－ＳであるＤＲＩＶＥ５へ記憶内容をコピーする際の処理を、図７のフローチャートを参照して説明する。

　サーバ１０１で使用するファイルシステムには、Ｍｉｃｒｏｓｏｆｔ（登録商標）社のＤＯＳであれば例えばＦＡＴ（File　Allocation　Tables）、Ｌｉｎｕｘ（登録商標）であればｉ－ｎｏｄｅ（Index　Node）といったドライブのファイル管理情報がある。ファイル管理情報はドライブの中に記憶されたデータの位置を記録している。以下では、ＦＡＴを例に説明する。なお、Ｅｘｔ３のようにジャーナリング機能を持つファイルシステムでは、ジャーナル情報も含めて記録内容をコピーする。また、Ｅｘｔ４、ＮＴＦＳ、ｚｆｓなど他のファイルシステムについても、同様に記録内容をコピーできる。

　ところで、ＤＲＩＶＥ－ＥからＤＲＩＶＥ－Ｓへのコピーを行っている間に、ＤＲＩＶＥ－Ｅに対し書き換えを含め書き込みが生じる場合がある。本実施形態では、このような場合でも、その書き込みの内容をジャーナリングすることで、ＤＲＩＶＥ－Ｅへの書き込みと、ＤＲＩＶＥ－Ｓへの書き込みを完全に同期させる。図７は、この場合の処理も含んでいる。また、上記コピーを行っている間に、ＤＲＩＶＥ－Ｅに対し読み出しが生じる場合がある。図７は、この場合の処理も含んでいる。すなわち、図７および以下の説明は、これらの場合における、コピー回路２６、或いはコピー手段による制御を説明している。

　図７のフローチャートでは、まず、ＤＲＩＶＥ－Ｅからの、ファイル管理情報を含むすべてのデータのコピーが完了したか判断している（ステップＳ２０１）。すべてのデータのコピーが完了すると（ステップＳ２０１でＹｅｓ）、前述のようにＤＲＩＶＥ－Ｅを切り離す（ステップＳ２０２）。

　一方、すべてのデータのコピーが完了していない場合（ステップＳ２０１でＮｏ）、すなわちコピー動作を行っている間に、上記のようにホスト側からＤＲＩＶＥ－Ｅに対し書き込み要求あるいは読み出し要求が生じる場合がある。このため、まずステップＳ２０３でＤＲＩＶＥ－Ｅへの書き込み要求があるか判断し、書き込み要求がない場合は（ステップＳ２０３でＮｏ）、さらにステップＳ２０６でＤＲＩＶＥ－Ｅへの読み出し要求があるか判断する。

　ＤＲＩＶＥ－Ｅへの書き込み要求があった場合（ステップＳ２０３でＹｅｓ）、その要求の内容についてのジャーナルをＤＲＩＶＥ－Ｓに記録し（ステップＳ２０４）、書き込みを要求されたデータをＤＲＩＶＥ－Ｓに書き込んで（ステップＳ２０５）、処理をステップＳ２０１へ戻す。

　ＤＲＩＶＥ－Ｅへの書き込み要求ではなく、ＤＲＩＶＥ－Ｅへの読み出し要求があった場合（ステップＳ２０６でＹｅｓ）、ＤＲＩＶＥ－ＥのＦＡＴを確認する（ステップＳ２０７）。該当のデータがＤＲＩＶＥ－Ｅになければ、ＤＲＩＶＥ－Ｓからデータを読み出す（ステップＳ２０８）。これは、本来ＤＲＩＶＥ－Ｅへの書き込みを要求されたデータであり、上記ステップＳ２０４にてＤＲＩＶＥ－Ｓに書き込まれたデータは、ＤＲＩＶＥ－Ｅには存在しないので、実際にデータが書き込まれたＤＲＩＶＥ－Ｓからデータを読み出している（ステップＳ２０８）。一方、該当のデータがＤＲＩＶＥ－Ｅにあれば、ＤＲＩＶＥ－Ｅからデータを読み出す（ステップＳ２０９）。

　また、ＤＲＩＶＥ－Ｅのコピーが完了しておらず、ＤＲＩＶＥ－Ｅに対する書き込み要求および読み出し要求もない場合（ステップＳ２０１、Ｓ２０３、およびＳ２０６でＮｏ）、さらにＤＲＩＶＥ－Ｅのデータコピーが完了したか判断する（ステップＳ２１０）。ここでデータコピーが完了していない場合は（ステップＳ２１０でＮｏ）、ＤＲＩＶＥ－ＥからＤＲＩＶＥ－Ｓへ一定量のデータのコピーを行う（ステップＳ２１１）。

　一方、ＤＲＩＶＥ－Ｅのデータコピーが完了している場合は（ステップＳ２１０でＹｅｓ）、さらにＦＡＴのコピーが完了しているか判断する（ステップＳ２１２）。ここでＦＡＴのコピーが完了していない場合（ステップＳ２１２でＮｏ）、ＤＲＩＶＥ－ＥからＤＲＩＶＥ－ＳへＦＡＴデータのコピーを行う（ステップＳ２１３）。

　ＤＲＩＶＥ－ＥのＦＡＴのコピーが完了している場合は（ステップＳ２１２でＹｅｓ）、上記ジャーナルを使ってＤＲＩＶＥ－ＳのＦＡＴのアップデートを行う（ステップＳ２１４）。

　以上のようにして、ＤＲＩＶＥ－Ｅの記憶内容は、ＤＲＩＶＥ－Ｓにコピーされる。そして、ＤＲＩＶＥ－Ｅの記憶内容のＤＲＩＶＥ－Ｓへのコピーが完了すると、ＲＡＩＤカード２１は、図６に示したように待機ドライブ（ＤＲＩＶＥ－Ｓ）を、故障する可能性の高いドライブ（ＤＲＩＶＥ－Ｅ）の代わりに現用ドライブとして運用する。

　以上説明したように、本実施形態のＲＡＩＤカード２１によれば、ディスクアレイ１１を構成する各ドライブについて故障する可能性の高いドライブを判定し、そのドライブの記憶内容を待機ドライブにコピーして、この待機ドライブを、故障する可能性の高いドライブに代えて運用する。したがって、ＲＡＩＤ０を利用するＲＡＩＤカード（ディスクアレイ制御装置）およびサーバは、ハードウェアの規模を抑えた上で、信頼性を向上させることができる。

　以上、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。その新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。また、この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

　１０　記憶装置
　１１　ディスクアレイ
　２０　Ｉ／Ｆ
　２１　ＲＡＩＤカード
　２２　分割・多重化回路
　２３　マトリクス回路
　２４　代替制御回路
　２５　温度センサ
　２６　コピー回路
　２７　判定回路
　２８　ＳＭＡＲＴ情報読出回路
　３０　マザーボード
　３１　ＭＰＵ
　３２　ＭＥＭ
　３３　Ｅｔｈｅｒｎｅｔ　Ｉ／Ｆ
　４０　Ｎｅｔｗｏｒｋ

Claims

　ストライピングによりデータを分割して分割されたデータをｎ台（ｎは２以上）の現用記憶装置に分散して書き込み、また前記ｎ台の現用記憶装置から分割されたデータを読み出すためのディスクアレイ制御装置であって、
　ホスト側からの入力データをｎ個に分割して、分割されたデータを出力し、また前記ｎ台の現用記憶装置からの分割されたｎ個のデータを多重化して前記ホスト側へ出力する分割・多重化手段と、
　前記ｎ台の現用記憶装置、ｍ台（ｍは１以上）の待機記憶装置、および前記分割・多重化手段間の接続を切り替える切替手段と、
　前記切替手段を制御する制御手段と、を備え、
　前記制御手段は、
　前記ｎ台の現用記憶装置から、各現用記憶装置の状態を示す情報を取得する状態取得手段と、
　前記状態取得手段により得られた前記ｎ台の現用記憶装置の状態を示す情報から、故障する可能性のある現用記憶装置を判定する判定手段と、
　前記切替手段によって、前記判定手段により判定された故障する可能性のある現用記憶装置と前記待機記憶装置の１つとを接続し、前記故障する可能性のある現用記憶装置から該現用記憶装置に接続された前記待機記憶装置へ、前記故障する可能性のある現用記憶装置の記憶内容をコピーするコピー手段と、を有する、
　ディスクアレイ制御装置。
　前記制御手段は、前記故障する可能性のある現用記憶装置から該現用記憶装置に接続された前記待機記憶装置への前記記憶内容のコピーが完了すると、前記故障する可能性のある現用記憶装置に代えて、前記ｎ台の現用記憶装置の１つとみなして前記待機記憶装置に対して前記各手段による制御を行う、請求項１に記載のディスクアレイ制御装置。
　前記コピー手段による前記記憶内容のコピーが完了する前に、ホスト側から前記故障する可能性のある現用記憶装置へのデータの書き込み要求があった場合、前記コピー手段は、前記故障する可能性のある現用記憶装置に代えて、該故障する可能性のある現用記憶装置からの前記記憶内容がコピーされている前記待機記憶装置に、当該書き込みにかかるジャーナル情報と書き込みが要求されたデータとを書き込む制御を行う、請求項１に記載のディスクアレイ制御装置。
　前記コピー手段による前記記憶内容のコピーが完了する前に、ホスト側から前記故障する可能性のある現用記憶装置へのデータの読み出し要求があった場合で、前記コピー手段は、前記故障する可能性のある現用記憶装置に該当のデータがある場合、前記故障する可能性のある現用記憶装置から該当のデータを読み出し、また前記故障する可能性のある現用記憶装置に該当のデータがない場合、該故障する可能性のある現用記憶装置からの前記記憶内容がコピーされている前記待機記憶装置から該当のデータを読み出す、請求項１に記載のディスクアレイ制御装置。
　前記ｎ台の現用記憶装置を含む装置内部の現在の温度が所定の設定値以上である場合、各現用記憶装置に対応するカウンタのカウント値を上げ、いずれかの現用記憶装置に対応する前記カウンタのカウント値が所定の設定値以上となった場合、前記判定手段は、そのカウンタのカウント値が所定の設定値以上となった現用記憶装置を故障する可能性のある現用記憶装置であると判定する、請求項１に記載のディスクアレイ制御装置。
　前記待機記憶装置の容量は、前記現用記憶装置の容量以上である、請求項１に記載のディスクアレイ制御装置。
　前記状態取得手段は、各前記現用記憶装置からＳＭＡＲＴ（Self-Monitoring, Analysis and Reporting　Technology）情報を取得する、請求項１に記載のディスクアレイ制御装置。
　請求項１のディスクアレイ制御装置を備えるサーバ。