WO2016135919A1

WO2016135919A1 - ストレージ装置

Info

Publication number: WO2016135919A1
Application number: PCT/JP2015/055605
Authority: WO
Inventors: 田中　勝也; 真喜夫水野
Original assignee: 株式会社日立製作所
Priority date: 2015-02-26
Filing date: 2015-02-26
Publication date: 2016-09-01
Also published as: US20180011763A1; US10459791B2

Abstract

　本発明の一実施形態に係るストレージ装置は、通信リクエストの送受信用キューと識別番号を有する論理ポートを複数有する複数のストレージノードと、複数のストレージノードを相互接続する内部ネットワークを有する。各ストレージノードは前記論理ポートとして、他のストレージノードとのデータ通信に用いられるデータ通信論理ポートと、このデータ通信論理ポートの状態を他のストレージノードに通知するために用いられるエラー通信論理ポートを有する。ストレージノードは、データ通信論理ポートがエラー状態に遷移したことを検知すると、エラー通信論理ポートを用いて、他のストレージノードに対して、データ通信論理ポートの識別番号と状態を通知する。

Description

ストレージ装置

　本発明は、複数の処理ノードをネットワークで相互結合して構成されるストレージ装置に関する。

　複数のストレージノードを集めたクラスタ構成のストレージ装置は、各ストレージノードを並列に稼働させることにより、並列アクセスによる高いデータアクセス性能を実現すると共に、データの冗長化による高可用を実現できる。たとえば特許文献１では、複数のストレージノードをネットワークで相互接続することで大規模なストレージ装置を構成することが開示されている。以下の説明及び図面において、複数のストレージノードを接続したストレージ装置の内部ネットワークを、ストレージ内部ネットワークと呼ぶことにする。また、ストレージノードを単にノードと呼ぶことがある。

　ストレージノードは、一般的に、ストレージコントローラと、ランダムアクセス可能な不揮発性記録媒体とを有する。この記録媒体は、例えば、ハードディスクドライブや不揮発性半導体メモリドライブを多数備えたディスクアレイである。ストレージコントローラは、上位装置（ホストシステム等）を接続するためのフロントエンドインターフェースと、ディスクアレイを接続するためのバックエンドインターフェースと、上位装置がディスクアレイに対して読み書きするユーザデータを一時的に保存するキャッシュメモリを有する。更に、ストレージコントローラは、ストレージコントローラ内で扱う制御データを格納する制御メモリと、ユーザデータ及び制御データのデータ転送を制御するためのプロセッサを有する。複数のストレージノードを接続したストレージ装置においては、複数のストレージノードがストレージ内部ネットワークを介して、ユーザデータや制御データをノード間で送受信する。

　また、ストレージノードをはじめとする、計算機ノード間の接続に好適なネットワークの標準規格としては、非特許文献１の「InfiniBand」が知られている。また、特許文献２のInfiniBandに関する改良技術が知られている。

国際公開第２０１４／１６２５８６号特表２０１３－５１１８８４号公報

「InfiniBand　Arhitecture　Specification　Volume　1　Release　1.2.1」、２００７年発行、著者InfiniBand　Trade　Association、第４６５頁～４６６頁及び第６８５頁

　InfiniBand(以下IBと略す)では、論理的なポートをQueue　Pair(以下QPと略す)と呼ぶ。IBを適用したストレージ内部ネットワークでは、複数のストレージノードに備えられたQP間でユーザデータ及び制御データを送受信する。QPには、Reset、Init、RTR　(Ready　To　Receive)、RTS　(Ready　To　Send)、Error等のステートが存在する。データ転送制御プログラムのソフトウェアバグ等により、QP間で送受信するリクエストの内容に誤りが生ずると、QPがエラーステートに遷移する場合がある。受信側のQPがリクエストの誤りを検出した場合は、受信側QPが送信側QPにNAK　(Negative　Acknowledge)を返送し、送受両側のQPがエラーステートに遷移する。ところが、データ転送制御プログラムが送信側QPへポストするリクエストの内容に誤りがある場合は、受信側QPへの通知無しに、送信側QPのみがエラーステートに遷移する場合がある。IB規格では、エラーステートに遷移したQPは、ACK/NAK等の応答を含めて送受信を一切行わなくなる。その結果、片方のQPのみがエラーステートに遷移した場合は、正常状態のQPがタイムアウト(Local　ACK　Timeout)で通信相手のQPエラーを検出することになる。

　高信頼性が求められるストレージ内部ネットワークでは、障害が発生した場合でも速やかに代替経路を用いてデータ転送を継続することにより、ホストタイムアウトが起こらないようにすることが要件となる。例えば、１００ミリ秒以内に障害を検出することが求められる。しかし、現在入手可能なIBのHost　Channel　Adapter　(以下HCAと略す)では、設定可能なタイムアウト値が約０．１４～０．５秒であるので、タイムアウト検出に短くても約０．１４～０．５秒かかってしまい、ストレージ内部ネットワークの要件を満たせない、という課題が生じる。

　本発明は以上のような問題に鑑みてなされたものであり、その主な目的は、ストレージ内部ネットワークにIBを適用したストレージ装置において、通信相手QPのエラーを、HCAに設定可能なタイムアウト値に因らずに検出する方法を提供することである。

　本発明の一実施形態に係るストレージ装置によれば、HCAで検出可能なタイムアウト時間よりも短時間で、通信相手の論理ポートのエラーを検出することができる。

図１は、実施例１のストレージ装置を説明する図である。図２は、ストレージノードを説明する図である。図３は、ストレージノード間の論理的な接続を説明する図である。図４は、ストレージ装置のRead動作を説明する図である。図５は、ストレージ装置のWrite動作を説明する図である。図６は、Local　ACK　Timeoutの発生例を説明する図である。図７は、実施例１におけるQPエラー検出方法を説明する図である。図８は、実施例１におけるSLとVLの対応を説明する図である。図９は、QP情報に関する管理テーブルを説明する図である。図１０は、エラー通知用QPが送受信するデータを説明する図である。図１１は、実施例１における障害QPに関する処理を説明する図である。図１２は、実施例１における連累QPに関する処理を説明する図である。図１３は、実施例１におけるエラー通知用QP間の通信を説明する図である。図１４は、ストレージ内部ネットワークの障害の種類と、それに対する検出と通知方法を説明する図である。図１５は、実施例２における障害QPに対する処理を説明する図である。図１６は、実施例２における連累QPに対する処理を説明する図である。図１７は、実施例２におけるエラー通知用QP間の通信を説明する図である。図１８は、実施例３におけるエラー通知用QP間の通信を説明する図である。図１９は、実施例３におけるエラー通知用QP間の通信を説明する図である。図２０は、実施例４におけるストレージノード間の論理的な接続を説明する図である。図２１は、実施例４におけるQPエラー検出方法を説明する図である。図２２は、実施例５におけるQPエラー検出方法を説明する図である。図２３は、実施例６におけるQPエラー検出方法を説明する図である。

　以下、図面を参照しながら、本発明の幾つかの実施例を説明する。なお、全ての実施例を通して、同一符号が付されている構成要素は、実質的に同じものであるとする。また、「プログラム」を主語として処理を説明する場合がある。そのプログラムは、プロセッサ、例えば、CPU　(Central　Processing　Unit)によって実行されるもので、定められた処理をするものである。なお、プロセッサが実行する処理は、適宜に記憶資源（例えばメモリ）及び通信インターフェース装置（例えば、通信ポート）を用いながら行うため、処理の主語がプロセッサとされてもよい。プロセッサは、CPUの他に専用ハードウェアを有していても良い。

　図１から図１４を参照して、実施例１に係るストレージ装置の説明を行う。先ず、実施例１の概要を説明する。ストレージ装置が有する各ストレージノードは、ストレージノード間でのデータ送受信のために、論理的な通信ポート（論理ポート）であるQPを用いる。ストレージノードは、ユーザデータまたは制御データを転送するデータ転送用QPとは別にエラー通知専用のQPを備える。データ転送用QPがエラーステートに遷移すると、障害監視プログラムがエラー通知用QPを介して、データ転送用QPの通信相手であるストレージノードへ、QPエラー発生を通知する。QPエラーを通知されたストレージノードは、エラー通知内容に対応するQPを破壊した後、QPを再作成する。

　図１は、実施例１におけるストレージ装置のハードウェア構成を説明する図である。

　実施例１のストレージ装置１００は、内部ネットワークにより相互接続された複数のストレージノード１０１（図中では“Ｓｔｏｒａｇｅ　Ｎｏｄｅ”と表記）を有する。この内部ネットワークを、本明細書ではストレージ内部ネットワークと呼ぶ。実施例１に係るストレージ装置１００では、ストレージ内部ネットワークに、たとえばＩｎｆｉｎｉＢａｎｄ規格のスイッチやリンクで構築されたネットワークが用いられる。各ストレージノード１０１は、ＩｎｆｉｎｉＢａｎｄ　Ｓｗｉｔｃｈ（IBスイッチ）１１０、１１１を介して相互接続される。

　ストレージノード１０１とIBスイッチ１１０、１１１間は、それぞれIBリンク１２０、１２１で接続されている。また、ストレージノード１０１と、IBスイッチ１１０、１１１は、管理ネットワーク１３０、１３１を介して管理端末１０２に接続されている。ストレージ装置１００の管理者は、管理端末１０２を介して、ストレージ装置１００の設定、障害監視、保守作業を行うことができる。また、ストレージノード１０１は、IBネットワーク上でデータ転送を開始するために必要な情報を、管理ネットワーク１３０、１３１を介して相互に交換することもできる。ここで交換される情報は、例えばIBポートのLID　(Local　Identifier)やQP番号等である。

　図２は、実施例１におけるストレージノードのハードウェア構成を説明する図である。

　ストレージノード１０１は、ストレージコントローラ２４０と、複数のハードディスクドライブ（ＨＤＤ）または複数のソリッドステートドライブ（ＳＳＤ）を有するディスクアレイ２３０からなる。

　ストレージコントローラ２４０は、プロセッサ（ＭＰ）２００、２１０と、メモリ２０２、２１２と、フロントエンドインターフェース（ＦＥ）２０４、２１４と、バックエンドインターフェース（ＢＥ）２０５、２１５と、管理ネットワークインターフェース（ＬＡＮＣ）２０８、２１８を有する。プロセッサ２００、２１０は、それぞれ複数のプロセッサコア２０１、２１１を有する。

　ストレージ装置１００にアクセスするホストシステム（非図示）は、フロントエンドインターフェース２０４、２１４を介して、ストレージ装置１００に接続される。ホストシステムとフロントエンドインターフェース２０４、２１４の間は、ファイバチャネルケーブル等の伝送線で接続される。あるいはホストシステムとフロントエンドインターフェース２０４、２１４が、複数の伝送線と複数のスイッチで構成されたストレージエリアネットワークを介して接続される構成でも良い。フロントエンドインターフェース２０４、２１４は、ホストシステムとストレージノード１０１間のデータ転送プロトコルと、ストレージコントローラ２４０内のデータ転送プロトコルを変換する。

　ディスクアレイ２３０は、バックエンドインターフェース２０５、２１５を介して、ストレージコントローラ２４０に接続される。バックエンドインターフェース２０５、２１５は、ストレージコントローラ２４０内のデータ転送プロトコルと、ストレージコントローラ２４０とディスクアレイ２３０間のデータ転送プロトコルを変換する。

　管理ネットワークインターフェース２０８、２１８は、管理ネットワーク１３０、１３１を介してストレージノード１０１を管理端末１０２に接続する。プロセッサ２００、２１０は、フロントエンドインターフェース２０４、２１４を介して接続したホストシステムと、バックエンドインターフェース２０５、２１５を介して接続したディスクアレイ２３０との間と、ストレージノード間のデータ転送を制御する。メモリ２０２、２１２は、それぞれ、プロセッサ２００、２１０の主記憶であり、プロセッサ２００、２１０が実行するプログラム（ストレージ制御プログラム等）や、プロセッサ２００、２１０が参照する管理テーブル等が格納される。また、メモリ２０２、２１２は、ストレージノード１０１のキャッシュメモリとしても使用される。

　さらに、ストレージコントローラ２４０は、PCIeスイッチ（ＰＣＩｅ　ＳＷ）２０３、２１３と、HCA２０６、２１６を有する。PCIeスイッチ２０３とPCIeスイッチ２１３はNon-Transparentリンク２２０で接続されている。プロセッサ２００と２１０は、Non-Transparentリンク２２０を介して通信可能である。

　HCA２０６、２１６はそれぞれ、IBリンクを接続するための物理ポートを１以上有する。この物理ポートのことをIBポートと呼ぶ。本実施例に係るストレージ装置１００では、HCA２０６は少なくともIBポート２０７を有し、HCA２１６は少なくともIBポート２１７を有する。HCA２０６、２１６は、それぞれPCIeスイッチ２０３、２１３を介してプロセッサ２００、２１０に接続されている。プロセッサ２００、２１０は、それぞれIBポート２０７、２１７とIBリンク１２０、１２１を介して、IBスイッチ１１０、１１１に接続している。その結果、各ストレージノード１０１は相互に通信可能になっている。

　図３は、実施例１におけるストレージノード間のIBネットワークによる論理的な接続を説明する図である。

　各ストレージノード内のメモリ（メモリ２０２及びメモリ２１２）は、ホストシステムから受信したユーザデータを格納するユーザデータメモリ領域と、ストレージ装置内の制御データを格納する制御メモリ領域を有する。ユーザデータメモリ領域には、ストレージノードのキャッシュメモリや、フロントエンドインターフェースまたはバックエンドインターフェースが使用するバッファ領域が割り当てられる。ストレージノード１（１０１）は、ユーザデータメモリ領域３０１と制御メモリ領域３０２を有する。同様に、ストレージノード２（３２０）はユーザデータメモリ領域３２１と制御メモリ領域３２２を、ストレージノードｎ（３３０）はユーザデータメモリ領域３３１と制御メモリ領域３３２を有する。

　IBでは、各ノードのプロセスが通信を行う際、論理的な通信ポート（論理ポート）であるQueue　Pair(QP)を用いる。IB規格の詳細は、例えば非特許文献１に記載されているので、ここでは本実施例の説明上必要な事項のみ説明する。

　各QPは少なくとも、送信リクエストを格納する送信キュー（Send　Queue。SQと表記されることもある）、他のノードから受信したリクエストを格納する受信キュー（Receive　Queue。RQと表記されることもある）を有する。SQとRQは、処理の完了したリクエストを格納するためのコンプリーションキュー（Completion　Queue。CQと表記されることもある）に関連付けがされている。SQやRQに格納されたリクエストが処理されると、処理完了(Completion　Queue　Entry。CQEと表記される)がSQまたはRQに関連付けられたCQに格納される。また各QPはユニークな識別番号であるQP番号を有する。QP番号はQPが作成される時にHCAによって自動的に割り当てられる値である。

　QPは論理的な通信ポートであるので、ノードのプロセッサ（MP２００，２１０）でプログラムを実行することで、QPの作成または破棄を自由に行うことができる。QPは、ストレージノードがIB　Verbs　APIのibv_create_qp()を実行することで作成され、またibv_destroy_qp()を実行することでQPを破棄（破壊）することができる。ただしQPの作成にあたっては、QPが有するSQやRQ等のためにメモリ資源を消費するため、無制限にQPを作成することはできない。

　各QPは、Reset、Init(Initialized)、RTR　(Ready　To　Receive)、RTS　(Ready　To　Send)、Error等のステート（状態）を有する。QPが作成された直後は、そのQPの状態は、Resetステートである。ストレージノードは、IB　Verbs　APIのibv_modify_qp()を実行することで、QPのステートをResetからInitに変更できる(遷移させることができる)。

　QPのステートがInitの場合、このQPを用いたリクエスト送受信はできない。リクエスト送受信可能にするためには、QPのステートをRTSに遷移させる必要がある。ただしInitステートのQPをRTSステートに遷移させるためには、一旦RTRステートへ遷移させる必要がある。InitステートのQPに対してibv_modify_qp()を実行することで、QPのステートをRTRに変更できる。RTRステートのQPは、リクエストの受信は可能だが、リクエストの送信はできない状態にある。QPのステートをRTRからRTSに変更することで、QPはリクエストの送受信が可能な状態になる。

　また、QPのステートをRTRステートに遷移させる時、QPの通信相手（通信先）となるQPのQP番号を指定する必要がある。つまり、QPをリクエスト送受信が可能な状態にする(RTSステートにする)には、QPのステートをRTRに遷移させる必要があり、かつQPのステートをRTRステートに遷移させるには、通信相手となるQPのQP番号が必要なので、ノードで新規作成されたQP(Resetステート)やInitステートのQPをリクエスト送受信可能な状態にするためには、通信相手先のQPのQP番号を取得する必要がある。

　また、リクエストの処理過程でエラーが発生すると、QPのステートがErrorに遷移することがある。QPのステートがErrorの場合、そのQPにおけるデータ通信ができなくなる。ErrorステートのQPを再び使用可能な状態にするためには、QPを一旦Resetステートに遷移させ、そこからInit、RTR、RTSステートへと遷移させる必要がある。

　IBのRC　(Reliable　Connection)サービスでは、通信相手となるノード毎と、QPを操作するプロセス毎にQPが必要となる。さらに、ユーザデータと制御データを異なるサービスレベル（データ転送の優先度）で転送するため、データ転送メモリ領域毎にQPが必要となる。従って、各ストレージノードは、少なくともメモリ領域毎と接続するストレージノード毎に、個別のQPを備える。例えば、ストレージノード１（１０１）は、ユーザデータメモリ領域３０１のデータをストレージノート２（３２０）のユーザデータメモリ領域３２１へ転送するためのQP３０３を有する。また、ストレージノード１（１０１）は、ユーザデータメモリ領域３０１のデータをストレージノートｎ（３３０）のユーザデータメモリ領域３３１へ転送するためのQP３０４を有する。さらに、ストレージノード１（１０１）は、制御メモリ領域３０２のデータをストレージノート２（３２０）の制御メモリ領域３２２へ転送するためのQP３０５を有する。さらにまた、ストレージノード１（１０１）は、制御メモリ領域３０２のデータをストレージノートｎ（３３０）の制御メモリ領域３３２へ転送するためのQP３０６を有する。

　同様に、ストレージノード２（３２０）は、ユーザデータメモリ領域３２１のデータをストレージノート１（１０１）のユーザデータメモリ領域３０１へ転送するためのQP３２３を有する。また、ストレージノード２（３２０）は、ユーザデータメモリ領域３２１のデータをストレージノートｎ（３３０）のユーザデータメモリ領域３３１へ転送するためのQP３２４を有する。さらに、ストレージノード２（３２０）は、制御メモリ領域３２２のデータをストレージノート１（１０１）の制御メモリ領域３０２へ転送するためのQP３２５を有する。さらにまた、ストレージノード２（３２０）は、制御メモリ領域３２２のデータをストレージノートｎ（３３０）の制御メモリ領域３３２へ転送するためのQP３２６を有する。

　同様に、ストレージノードｎ（３３０）は、ユーザデータメモリ領域３３１のデータをストレージノート１（１０１）のユーザデータメモリ領域３０１へ転送するためのQP３３３を有する。また、ストレージノードｎ（３３０）は、ユーザデータメモリ領域３３１のデータをストレージノート２（３２０）のユーザデータメモリ領域３２１へ転送するためのQP３３４を有する。さらに、ストレージノードｎ（３３０）は、制御メモリ領域３３２のデータをストレージノート１（１０１）の制御メモリ領域３０２へ転送するためのQP３３５を有する。さらにまた、ストレージノードｎ（３３０）は、制御メモリ領域３３２のデータをストレージノート２（３２０）の制御メモリ領域３２２へ転送するためのQP３３６を有する。

　つまり、各ストレージノードは、QPでデータ転送を行うノードのメモリ領域の種類の数と、接続ノード数ｎと、各ノードにおけるQPを操作するプロセス数、の積に応じたQPを備える。なお、原則として、２個のQP間で双方向通信が可能である。

　さらに、各ストレージノードは、QPに障害が発生し（QPがErrorステートに遷移し）、通信ができなくなった場合に備えて、代替QPを設けておくとよい。

　図４は、実施例１のストレージ装置１００における、ホストシステムからRead要求を受信した場合の動作を説明する図である。図４では、プロセッサ（２００、４２２）とHCA（２０６，４２３）を接続するPCIeスイッチは省略している。

　ホストシステム４００は、ストレージノード１（１０１）のフロントエンドインターフェース２０４に接続している。フロントエンドインターフェース２０４がホストシステム４００からのRead要求を受信したとする。そして、ホストシステム４００に要求されたデータは、ストレージノード２（３２０）のキャッシュメモリ４２１に格納されているとする。

　ストレージノード１（１０１）のプロセッサ２００は、HCA２０６からHCA４２３に対して、キャッシュメモリ４２１内のデータ読み出し要求を送信する。具体的には、データ転送制御プログラムがプロセッサ２００で実行されることにより、プロセッサ２００はストレージノード１（１０１）内に用意されている複数のQPのうち、ストレージノード２（３２０）との通信用のQPに対してデータ読み出し用のリクエスト（たとえばRDMA　Readリクエスト）をポストする。ポストとは、QPの送信キューにリクエストを格納する動作を意味する。これによりリクエストがHCA４２３に送信される。

　このリクエストを受信したストレージノード２（３２０）は、キャッシュメモリ４２１内の読み出しデータを、プロセッサ４２２、HCA４２３、IBスイッチ１１０、HCA２０６、プロセッサ２００を経由する経路４０２で、メモリ２０２内のバッファ領域４０１に転送する。フロントエンドインターフェース２０４は、バッファ領域４０１に格納された読み出しデータを、ホストシステム４００に転送する（４０３）。

　あるいは、キャッシュメモリ４２１内のデータを、ストレージノード２（３２０）からストレージノード１（１０１）へRDMA　Writeリクエストを使って送信するように制御してもよい。その場合、先ず、プロセッサ２００が、ストレージノード２（３２０）との通信用のQPに対して、読み出しデータ送信をプロセッサ４２２に依頼するメッセージを転送するリクエスト（例えばRDMA　Writeリクエスト）をポストする。メッセージを受信したプロセッサ４２２は、ストレージノード１（１０１）との通信用のQPに対して、読み出しデータを転送するRDMA　Writeリクエストをポストする。

　図５は、実施例１のストレージ装置１００における、ホストシステムからのWrite要求を受信した場合の動作を説明する図である。プロセッサ（２００、４２２、５３２）とHCA（２０６，４２３、５３３）を接続するPCIeスイッチは省略している。

　ホストシステム４００から受信した書き込みデータは、メモリ２０２内のバッファ領域４０１に格納される（５０１）。ホストシステム４００から受信した書き込みデータの書き込み先として、ストレージノード２（３２０）の記憶領域が、ストレージ制御プログラムにより指示されたとする。

　プロセッサ２００は、バッファ４０１内の書き込みデータを、HCA２０６、IBスイッチ１１０、HCA４２３、プロセッサ４２２を介して、ストレージノード２（３２０）のキャッシュメモリ４２１へ転送する（５０２）。さらに書き込みデータを冗長化するため、プロセッサ２００は、書き込みデータを、HCA２０６、IBスイッチ１１０、HCA５３３、プロセッサ５３２を介して、ストレージノード３（５３０）のキャッシュメモリ５３１へ転送する（５０３）。２個のストレージノード内キャッシュメモリへの書き込みが完了した後、フロントエンドインターフェース２０４は、ホストシステム４００に対して、書き込みが完了を通知する。この場合も、Read要求を受信した場合の処理と同様、プロセッサ２００は、ストレージノード１（１０１）内に用意されている複数のQPのうち、ストレージノード２（３２０）との通信用のQPに対してデータ書き込み用のリクエスト（たとえばRDMA　Writeリクエスト）をポストすることで、データ転送を行う。またプロセッサ２００は、ストレージノード３（５３０）との通信用のQPに対しても、データ書き込み用のリクエストをポストすることで、データ転送を行う。

　図６は、標準的なIBネットワークにおいて、Local　ACK　Timeoutが発生する例を説明する図である。例として、QP0（６００）とQP3（６０１）は、双方向にデータ転送を行っている場合を仮定する。

　先ず、QP0（６００）とQP3（６０１）が共に正常な場合の動作を説明する。ノード１で動作するデータ転送制御プログラムは、リクエストをQP0（６００）にポストする（６０２）。例えばリクエストの内容がRDMA　Writeオペレーションであった場合、QP0（６００）はQP3（６０１）へRDMA　Writeリクエストパケットを送信する（６０３）。RDMA　Writeを受信したQP3（６０１）は、リクエスト内容に従いノード２のメモリに書き込みを行った後、ACKをQP0（６００）に返信する（６０４）。ノード１で動作するデータ転送制御プログラムは、QP0（６００）に接続されたコンプリーションキューから、コンプリーションを取得し、リクエストが正常に完了したことを確認する（６０５）。

　次ぎに、QP3（６０１）がエラーステートに遷移する場合の動作を説明する。前述とは逆に、QP3（６０１）からQP0（６００）へデータ転送するために、ノード２で動作するデータ転送制御プログラムが、リクエストをQP3（６０１）にポストする。この時、データ転送制御プログラムのバグ等により、そのリクエストの内容にパラメータ誤りが含まれていたとする（６０６）。するとQP3（６０１）は、通信相手であるQP0（６００）に対してエラー通知をすること無しに（６０７）、QP3（６０１）に接続されたコンプリーションキューに、QP3（６０１）におけるエラー発生を示すコンプリーションを出力する（６０８）。そして、QP3（６０１）はエラーステートに遷移する。IB規格によると、エラーステートに遷移したQPは、送受信を一切行わなくなる。

　また、このように通信相手に無断でQPがエラーステートに遷移する他の例としては、QPの送信キュー、受信キューやコンプリーションキューにオーバーフロー等のエラーを生じた場合がある。

　その後、ノード１で動作するデータ転送制御プログラムが、RDMA　WriteリクエストをQP0（６００）にポストしたとする（６１０）。QP0（６００）はQP3（６０１）へRDMA Writeリクエストパケットを送信する（６１１）。しかし、QP3（６０１）はエラーステートに遷移しているので、ACK/NAKを返送しない（６１２）。QP0（６００）は、所定のタイムアウト時間が経過する待って、コンプリーションキューにLocal　ACK　Timeoutエラーを出力する（６１３）。このタイムアウト値は、現在入手可能なHCAにおいて、約０．１４～０．５秒程度である。従って、ノード１で動作するデータ転送制御プログラムが通信相手のQPエラーを検出するのに、短くても約０．１４～０．５秒程度かかることになる。このような長い時間のタイムアウトが図４または図５の動作で起こると、ホストシステム４００がストレージ装置１００に障害が発生したと判断してしまう可能性がある。

　図７は、実施例１におけるQPエラー検出方法を説明する図である。図７(a)は、ノード１からノード２へデータを転送する場合、図７(b)は、ノード２からノード１へデータ転送する場合を示す。図７では説明を容易にするため、ストレージノード１（７００）とストレージノード２（７０１）を接続するIBスイッチを省略している。図７(a)及び図７(b)において、ノード１は、ユーザデータ転送用QP0（７１０）、制御データ転送用QP1（７１１）と、エラー通知用QP2（７１２）を有する。同様に、ノード２は、ユーザデータ転送用QP3（７１３）、制御データ転送用QP4（７１４）と、エラー通知用QP5（７１５）を有する。ノード１とノード２は、３本の仮想レーン７２０、７２１、７２２を有するIBリンク７３０で接続している。なお、ユーザデータ転送用QPと制御データ転送用QPのことを総称して、「データ転送用QP」と呼ぶ。

　ここで、実施例１におけるサービスレベルと仮想レーンの対応について説明した後、再び図７の説明に戻る。

　図８は、実施例１におけるサービスレベルと仮想レーンとの対応を説明する図であり、データ転送の用途８０１と、使用するサービスレベル（ＳＬ）８０２と、そのサービスレベルに対応付けされた仮想レーン（ＶＬ）８０３との対応を示す。実施例１のストレージ装置１００は、ユーザデータ転送を行うためのQP（たとえば図７における、ユーザデータ転送用QP0（７１０））にサービスレベル０を設定し、仮想レーン０を割り当てる。また、ストレージ装置１００は、制御データ転送を行うためのQP（たとえば図７における、制御データ転送用QP1（７１１））にサービスレベル１を設定し、仮想レーン１を割り当てる。さらに、ストレージ装置１００は、エラー通知を行うためにのQP（たとえば図７における、エラー通知用QP2（７１２））にサービスレベル２を設定し、仮想レーン２を割り当てる。

　サービスレベルが高いほどデータ転送の優先度が高くなる。また、データ転送の用途別に独立した仮想レーンを割り当てているので、たとえIBリンク上でユーザデータ転送による混雑が生じていても、エラー通知のためのデータは優先して転送されることになる。もし、IBリンクに割当可能な仮想レーン数が少ない場合は、制御データとエラー通知に同じ仮想レーンを共有させて、少なくともユーザデータ転送に対してエラー通知のサービスレベルを高く設定する。また、少なくともユーザデータ転送とエラー通知には、別々の仮想レーンを割り当てることにする。

　図７の説明に戻る。図7(a)では、QP0（７１０）、QP1（７１１）とQP2（７１２）がリクエスタであり、QP3（７１３）、QP4（７１４）とQP5（７１５）がレスポンダとして動作している場合の例を表している。図７(a)において、ノード１で動作するデータ転送制御プログラム７０２は、ユーザデータをサービスレベル０に設定したQP0（７１０）からノード２のQP3（７１３）へ転送し、制御データをサービスレベル１に設定したQP1（７１１）からノード２のQP4（７１４）へ転送する。

　ノード１で動作する障害監視プログラム７０３は、QP0（７１０）とQP1（７１１）のステートをチェックする。QP0（７１０）またはQP1（７１１）のエラーを検出した場合、障害監視プログラム７０３は、エラー通知をサービスレベル２に設定したQP2（７１２）からノード２のQP5（７１５）へ送信する。ノード２で動作するデータ転送制御プログラム７０５は、エラー通知をQP5（７１５）に接続されたコンプリーションキューから取得する。

　図7(b)では、リクエスタとレスポンダの役割が図7(a)とは逆の例が示されている。図７(b)において、ノード２で動作するデータ転送制御プログラム７０４は、ユーザデータをサービスレベル０に設定したQP3（７１３）からノード１のQP0（７１０）へ転送し、制御データをサービスレベル１に設定したQP4（７１４）からノード１のQP1（７１１）へ転送する。

　ノード２で動作する障害監視プログラム７０５は、QP3（７１３）とQP4（７１４）のステートをチェックする。QP3（７１３）またはQP4（７１４）のエラーを検出した場合、障害監視プログラム７０４は、エラー通知をサービスレベル２に設定したQP5（７１５）からノード１のQP2（７１２）へ送信する。データ転送制御プログラム７０２は、エラー通知をQP2（７１２）に接続されたコンプリーションキューから取得する。

　図７では、ユーザデータ転送用QP１個と、制御データ転送用QP１個に対して、エラー通知用QP１個を割り当てているが、複数のユーザデータ転送用QPまたは複数の制御データ転送用QPに対して、１個のエラー通知用QPを割り当ててもよい。また、IB規格の制限により、異なるプロセスは同じQPを操作できない。従って、データ転送制御プログラム７０２と障害監視プログラム７０３は、ノード１（７００）上で一つのプロセスとして動作するストレージ制御プログラムの一部として動作することにする。ノード２（７０１）のデータ転送制御プログラム７０４と障害監視プログラム７０５も、ノード２（７０１）上で一つのプロセスとして動作するストレージ制御プログラムの一部として動作することにする。なお、各ノードにおいて、ストレージ制御プログラムを複数のプロセスとして動作させて、各プロセス毎に異なるQPを操作するようにしてもよい。

　図９は、実施例１におけるQP情報に関する管理テーブルを説明する図である。各ストレージノードがQP情報管理テーブル９００を有する。通信相手のノードからエラー通知を受信したデータ転送制御プログラムは、このQP情報管理テーブル９００を参照し、障害処理を実行する。

　QP情報管理テーブル９００は、エラー通知用QPの識別情報９０１と、この管理テーブル９００が格納されているノード（Localノード）におけるユーザデータ及び制御データ転送用QPの識別情報９０２を格納する。さらに、QP情報管理テーブル９００は、接続先ノード（Remoteノード）のIBポートのLID９０３とQPの識別情報９０４と、データ転送に使用するサービスレベル（ＳＬ）９０５を格納する。ここで、QPの識別情報とは、例えばQP番号である。

　エラー通知を受信したデータ転送制御プログラムは、エラー通知に含まれるQP識別情報を、QP情報管理テーブル９００内の、接続先ノードのQPの識別情報９０４と比較することにより、どのノードのどのQPがエラーになったかを調べることができる。また、破壊と再作成、またはリセットすべきLocalノードのQPを、QP情報管理テーブル９００の識別情報９０２から特定することもできる。さらにデータ転送制御プログラムは、再作成またはリセットしたQPに対して、サービスレベル９０５で指定されたサービスレベルを設定することができる。

　図１０は、エラー通知用QP間で送受信するデータを説明する図である。障害監視プログラムがエラー通知用QPを用いて、32bit長のデータ（１００１）を、IBのRDMA　Write with　Immediateオペレーションにおける即値(Immediate　Data)に格納したリクエストを作成し、このリクエストをエラー通知用QPにポストすることで、通信相手のノード(のQP)に送信する。リクエストを受信したノードで実行されるプログラム(データ転送制御プログラム)は、エラー通知用QPのRQに関連付けられたコンプリーションキューから即値を取得することができる。

　即値（１００１）には、エラーが発生したQPのQP番号（１００２）とそのステートを識別する情報（１００３）が格納されている。なお、障害監視プログラムが送信するRDMA　Write　with　Immediateオペレーションのリクエストは、即値以外のデータ転送は行わないので、即値以外のデータ転送長を０、Scatter　Gatgerリスト数も０として、リクエストのパラメータに設定する。

　また、詳細は後述するが、エラー通知用QPは、エラーが発生した（Errorステートの）QPについての情報を送る時にのみ用いられるわけではなく、その他の状態にあるQPについての情報を送る際にも用いられる。そのため、ステートを識別する情報（１００３）には、Errorステート以外の状態(InitやRTSなど)も格納され得る。また障害監視プログラムだけでなく、データ転送制御プログラムもエラー通知用QPを用いて、図１０に記載の形式に従ったデータ（１００１）を作成し送信する。

　図１１と図１２で、エラー通知QPを使ったQPエラーの通知と、それに対する障害処理方法を説明する。実施例１では、エラー通知用QPを図１１と図１２に示すエラー通知に関連する処理のみに限定して使用することで、エラー通知用QPに関してソフトウェアバグによるエラーが発生することを回避する。以下、通信相手に無断でエラーステートに遷移したQPを障害QPと呼ぶ。また、障害QPの通信相手であり、障害QPとともに障害処理を実行しなければならなくなったQPを連累QPと呼ぶことにする。

　図１１は、実施例１における障害QPに関する処理を説明する図である。このフローは、障害QPが属するノードで動作する障害監視プログラムが実行する。一方図１２は、連累QPが属するノードで動作するデータ転送制御プログラムで行われる処理のフローである。

　障害監視プログラムは、ユーザデータ転送用QPまたは制御データ転送用QPのエラーを検出するまで待機する（１１０１）。QPエラーは、IBのコンプリーションエラーとして検出される場合と、非同期エラーとして通知される場合がある。

　エラーを検出した障害監視プログラムは、障害QPが担当していたデータ転送を、予め割り当てておいた代替QPによるデータ転送に変更するように、ストレージ制御プログラムに通知する。代替QPは、障害QPが関連付けられているIBポートが属するHCAと同一のHCAが有するIBポートに関連付けられているQPでも、他のHCAが有するIBポートに関連付けられているQPでもよい。ストレージ制御プログラムはこの通知を受けて、代替QPによるデータ転送を行うようになる。

　また、エラーを検出した障害監視プログラムは、障害QPの情報（LIDやQP番号等）を管理端末１０２に表示し、ストレージ管理者に通知する。

　次ぎに、エラーを検出した障害監視プログラムは、図１０に示された形式で障害QPのQP番号とエラー状態を格納した情報を、RDMA　Write　with　Immediateオペレーションにおける即値に設定し、エラー通知用QPから相手ノード（つまり連累QPの属するノード）へ送信する（１１０２）。

　次ぎに、障害監視プログラムは、障害QPに接続したコンプリーションキューから、障害QPに関連するコンプリーションキューエントリ　(CQE)を取り出す（１１０３）。ただし、エラー原因によっては、コンプリーションキューエントリを取得できない場合がある。その場合、このステップ１１０３はスキップされる。

　次ぎに、障害監視プログラムは、障害QPを破壊し、新しいQPを作成する（１１０４）。この時再作成したQPの状態は、Resetステートである。障害監視プログラムは、続けて障害QPをInitステートに遷移させてもよい。

　次ぎに、障害監視プログラムは、再作成したQPのQP番号とステートを識別できる情報をRDMA　Write　with　Immediateオペレーションにおける即値に設定したリクエストを作成し、エラー通知用QPから相手ノードへリクエストを送信する（１１０５）。

　一方、通信相手のノードでは、障害QPの属するノードの障害監視プログラムがステップ１１０２で送信した通知を受領したことに応じて、データ転送制御プログラムが連累QPを作り直している。障害監視プログラムは、通信相手のノードのデータ転送制御プログラムが再作成したQPのQP番号が、エラー通知用QPに送られてくるのを待つ（１１０６）。

　次ぎに、障害監視プログラムは、受信したQP番号を使って、再作成したQPをRTRステートへ遷移させる。InitステートからRTRステートへの遷移には、通信相手のQP番号を指定する必要がある。またこの他に、通信相手のLIDとPSN　(Packet　Sequence　Number)も必要となる。LIDはQPの再作成では変わらないのでそれまでの値を再設定し、PSNは所定の初期値を設定する。続けて、障害監視プログラムは、再作成したQPをRTSステートへ遷移させる（１１０７）。そして、障害監視プログラムは、再作成したQPのQP番号とステートをRDMA　Write　with　Immediateオペレーションにおける即値に設定したリクエストを作成し、エラー通知用QPから相手ノードへリクエストを送信する（１１０８）。

　ここまでの処理に平行して、通信相手のノードでは、通信相手のノードのデータ転送制御プログラムが連累QPをRTSステートへ遷移させる処理を行っている。障害監視プログラムは、通信相手のノードのデータ転送制御プログラムがRTSステートへ遷移させたQP（連累QP）のQP番号とステートが、エラー通知用QPに送られてくるのを待つ（１１０９）。

　障害監視プログラムは、連累QPのQP番号とステートを受領し、連累QPがRTSステートに遷移したことを確認すると、このQPの情報（LIDやQP番号等）を管理端末１０２に表示し、ストレージ管理者に通知する。また障害監視プログラムは、自ノードのデータ転送制御プログラムに対し、再作成されたQPを用いたデータ転送が可能になったことを通知して、処理を終了する。自ノードのデータ転送制御プログラムはこの通知を受けることで、再作成されたQPを用いたデータ転送が可能になったと判断する。

　図１２は、実施例１における連累QPに関する処理を説明する図である。このフローは、連累QPが属するノードで動作するデータ転送制御プログラムが実行する。

　データ転送制御プログラムは、通信相手のノードからエラーが通知されるのを待つ（１２０１）。

　エラー通知を受信したデータ転送制御プログラムは、即値に含まれるQP情報と、QP情報管理テーブル９００を参照し、連累QPを特定する（１２０２）。先に述べたとおり、即値に含まれるQP情報には、障害QPのQP番号が含まれている。エラー通知を受信したデータ転送制御プログラムは、QP情報管理テーブル９００内の各行を参照し、接続先ノードのQPの識別情報９０４が、障害QPのQP番号と一致する行を特定する。そしてその行の、QPの識別情報９０２を特定することで、連累QPが特定できる。

　そして、データ転送プログラムは、連累QPが担当していたデータ転送を、予め割り当てておいた代替QPによるデータ転送に変更するように、ストレージ制御プログラムに通知する。代替QPは、連累QPが関連付けられているIBポートが属するHCAと同一のHCAが有するIBポートに関連付けられているQPでも、他のHCAのIBポートに関連づけられているQPでもよい。ストレージ制御プログラムはこの通知を受けて、代替QPを用いたデータ転送を行うようになる。

　次ぎに、データ転送制御プログラムは、連累QPが既にエラーステートか否かをチェックする（１２０３）。連累QPがエラーステートでない場合、データ転送制御プログラムは、連累QPをエラーステートに遷移させる（１２０４）。Queue　Pairがエラーステートに遷移すると、Queue　PairのSend　Queue及びReceive　Queueに格納していたリクエストがコンプリーションキューに出力される。エラー原因によっては、レスポンダからリクエスタへNAKが返送され、NAKを受信したリクエスタ側QPがエラーステートに遷移する場合がある。その場合、ステップ１２０４はスキップされる。

　また、データ転送制御プログラムは、エラーステートに遷移した連累QPの情報（LIDやQP番号等）を管理端末１０２に表示し、ストレージ管理者に通知する。

　次ぎに、データ転送制御プログラムは、連累QPに接続したコンプリーションキューから、連累QPに関連するコンプリーションキューエントリ　(CQE)を取り出す（１２０５）。ただし、エラー原因によっては、コンプリーションキューエントリを取得できない場合がある。その場合、このステップ１２０５はスキップされる。

　次ぎに、データ転送制御プログラムは、連累QPを破壊し、新しいQPを作成する（１２０６）。この時再作成したQPの状態は、Resetステートである。データ転送制御プログラムは、続けて連累QPをInitステートに遷移させてもよい。

　次ぎに、データ転送制御プログラムは、再作成したQPのQP番号とステートを識別できる情報をRDMA　Write　with　Immediateオペレーションにおける即値に設定したリクエストを作成し、エラー通知用QPから相手ノードへリクエストを送信する（１２０７）。

　ここまでの処理に平行して、通信相手のノード（障害QPの属するノード）では、障害監視プログラムが障害QPを作り直している。データ転送制御プログラムは、通信相手のノードの障害監視プログラムが再作成したQPのQP番号が、エラー通知用QPに送られてくるのを待つ（１２０８）。

　次ぎに、データ転送制御プログラムは、受信したQP番号を使って、再作成したQPをRTRステートへ遷移させる。InitステートからRTRステートへの遷移には、通信相手のQP番号の他に、通信相手のLIDとPSN　(Packet　Sequence　Number)も必要となる。LIDはQPの再作成では変わらないのでそれまでの値を再設定し、PSNは所定の初期値を設定する。続けて、データ転送制御プログラムは、再作成したQPをRTSステートへ遷移させる（１２０９）。そして、データ転送制御プログラムは、再作成したQPのQP番号とステートをRDMA　Write　with　Immediateオペレーションにおける即値に設定し、エラー通知用QPから相手ノードへリクエストを送信する（１２１０）。

　ここまでの処理に平行して、通信相手のノードでは、障害監視プログラムが障害QPをRTSステートへ遷移させる処理を行っている。データ転送制御プログラムは、通信相手のノードの障害監視プログラムがRTSステートへ遷移させたQPのQP番号とステートが、エラー通知用QPに送られてくるのを待つ（１２１１）。

　データ転送制御プログラムは、通信相手のノードが再作成したQPのQP番号とステートを受領し、このQPがRTSステートに遷移したことを確認すると、再作成されたQPを用いたデータ転送が可能と判断する。そしてデータ転送制御プログラムは、RTSステートに遷移してデータ転送可能になったQPの情報（LIDやQP番号等）を管理端末１０２に表示し、ストレージ管理者に通知し、処理を終了する。図１１と図１２の処理が完了すると、両端ノードのQPが共にRTSステートとなり、データ転送を再開することができる。

　図１３は、実施例１におけるエラー通知用QP間の通信を説明する図である。先ず、ノード２で動作する障害監視プログラムが、ユーザデータ転送用または制御データ転送用のデータ転送用QPのエラーを検出する（１３０１）。次ぎに、ノード２で動作する障害監視プログラムが、エラー通知用QP5（７１５）から、エラーが発生したQPのQP番号と、そのステート識別情報を即値に格納したRDMA　Write　with　Immediateリクエストを、ノード１のエラー通知用QP2（７１２）へ送信する（１３０２）。これらの処理は、図１１のステップ１１０１、１１０２に相当する処理である。

　エラー通知を送信したノード２で動作する障害監視プログラムは、エラーが発生したQP、つまり障害QPを破壊し、再作成する（１３０３）。これらの処理は、図１１のステップ１１０３、１１０４に相当する処理である。

　エラー通知を受信したノード１で動作するデータ転送制御プログラムは、１３０２で通知された即値の内容から障害QPに対応するQP、つまり連累QPを特定、破壊し、再作成する（１３０４）。これらの処理は、図１２のステップ１２０１～１２０６に相当する処理である。

　そして、ノード２の障害監視プログラムとノード１のデータ転送制御プログラムは、再作成したQPのQP番号とそのステート識別情報を即値に格納したRDMA　Write　with　Immediateリクエストを送受信する（１３０５、１３０６）。これらの処理は、図１１のステップ１１０５、図１２のステップ１２０７に相当する処理である。

　次ぎに、ノード２の障害監視プログラムとノード１のデータ転送制御プログラムは、再作成したQPをResetステート、Initステート、RTRステートの順に、RTSステートまで遷移させる（１３０７、１３０８）。これらの処理は、図１１のステップ１１０６～１１０７、図１２のステップ１２０８～１２０９に相当する処理である。

　最後に、ノード２の障害監視プログラムとノード１のデータ転送制御プログラムは、RTSステートへの状態遷移が完了したQPのQP番号とそのステート識別情報を即値に格納したRDMA　Write　with　Immediateリクエストを送受信する（１３０９、１３１０）。これらの処理は、図１１のステップ１１０８～１１０９、図１２のステップ１２１０～１２１１に相当する処理である。以上の処理が完了すると、ノード１とノード２の間で、再作成されたQPを用いてデータ転送を再開できる。なお、即座に再作成されたQPを用いたデータ転送を行うようにしてもよいが、代替QPによるデータ転送が行われている場合には、代替QPによるデータ転送を継続実施してもよい（つまり、再作成されたQPを用いたデータ転送をすぐに行う必要はない）。代替QPがエラーステートに遷移した時に、再作成されたQPを用いたデータ転送を行うようにしてもよい。

　図１４は、実施例１のストレージ内部ネットワークにおける、障害の種類とそれに対する検出と通知の方法を、標準的なIB規格におけるものと比較した図である。IBを適用したストレージ内部ネットワークにおいて想定される障害の種類は、ポートの物理的なエラーと、インターミッテントエラーと、ソフトウェアバグによるエラーがある（１４０１）。

　ポートの物理的なエラーとは、例えばIBリンクがダウンして物理ポート間が通信不能に陥る障害である。この障害の場合、IB規格では、Subnet　Manager　Agentにより障害が検出され、Subnet　Managerへ通知されるか、HCAが発生させる非同期イベントで検出されることになっている。本実施例でも、ポート物理エラーに関しては、IB規格に従いSubnet　Managerに障害が通知される。そして、Subnet　Managerからの障害発生通知を受信したストレージ制御プログラムが、データ転送経路のフェイルオーバー処理を行う。あるいは、HCAが発生させる非同期イベントを検出したストレージ制御プログラムが、データ転送経路のフェイルオーバー処理を行う。

　インターミッテントエラーは、間欠的なパケット損失等の障害である。この障害の場合、IB規格では、受信側QPが、パケット毎に付加したシーケンス番号の不連続を検出し、送信側QPに再送を要求する。本実施例でも、インターミッテントエラーに関しては、IB規格に従った処理を行う。

　ソフトウェアバグ等によりQPが通信相手に無断でエラーステートに遷移した場合、IB規格では、上で図６を用いて説明したように、送信元QPがLocal　ACK　Timeoutエラーを出力することにより、ノードが送信先QPエラーを検出することになる。Local　ACK　Timeoutエラーが出力されるまでには、時間がかかるため、この方法では、QPのエラーを検出するまでに、長時間を要する。

　それに対して、実施例１のストレージ装置１００では、データ転送用QPにエラーが生じた場合、障害監視プログラムがエラー通知用QPを介して通信相手に通知する。これにより、ストレージ装置１００は、Local　ACK　Timeoutになる前に障害処理を実行することができる。以上説明した通り、本発明によると、ストレージ内部ネットワークで相互接続された複数のストレージノードを有するストレージ装置において、ソフトウェアバグによる通信相手の論理ポートのエラーを、リクエスト送信元論理ポートのタイムアウトに因らずに検出する方法を提供できる。その結果、ソフトウェアバグによる論理ポートのエラーが発生した場合でも、ストレージノードは即座に代替論理ポート（代替QP）を用いたデータ転送を行うように切り替えることができ、ホストシステムにおけるタイムアウト発生を回避できる。

　図１５から図１７を参照して、実施例２の説明を行う。先ず、実施例２の概要を述べる。実施例２のストレージ装置は、障害QPに関する処理と連累QPに関する処理が、実施例１のストレージ装置とは異なる。ストレージ装置のその他の構成や動作は同じである。実施例２のストレージ装置では、障害QP及び連累QPを破壊せず、リセットして再利用する。

　図１５と図１６で、実施例２のストレージ装置におけるエラー通知QPを使ったQPエラーの通知と、それに対する障害処理方法を説明する。実施例１と同様に、通信相手に無断でエラーステートに遷移したQPを障害QPと呼ぶ。また、障害QPの通信相手であり、障害QPとともに障害処理を実行しなければならなくなったQPを連累QPと呼ぶことにする。

　図１５は、実施例２における障害QPに対する処理を説明する図である。このフローは、障害QPが属するノードで動作する障害監視プログラムが実行する。

　ステップ１５０１からステップ１５０３の処理は、実施例１における図１１のステップ１１０１から１１０３の処理と同内容であるので、説明を省略する。

　ステップ１５０３においてコンプリーションキューからコンプリーションキューエントリ　(CQE)を取り出した障害監視プログラムは、障害QPをResetステートへ遷移させる（１５０４）。実施例２では障害QPを破壊しないので、障害QPのQP番号は変わらない。従って、実施例１のQP番号を通知する図１１のステップ１１０５の処理は、実施例２では不要である。障害監視プログラムは、続けて障害QPをInitステートに遷移させてもよい。

　ステップ１５０５からステップ１５０７の処理は、実施例１における図１１のステップ１１０７から１１０９の処理と同内容であるので、説明を省略する。

　図１６は、実施例２における連累QPに対する処理を説明する図である。このフローは、実施例１と同様に、連累QPが属するノードで動作するデータ転送制御プログラムが実行する。

　ステップ１６０１からステップ１６０５の処理は、実施例１における図１２のステップ１２０１から１２０５の処理と同内容であるので、説明を省略する。

　ステップ１６０５においてコンプリーションキューからコンプリーションキューエントリ　(CQE)を取り出したデータ転送制御プログラムは、連累QPをResetステートへ遷移させる（１６０６）。実施例２では連累QPを破壊しないので、連累QPのQP番号は変わらない。従って、実施例１のQP番号を通知する図１２のステップ１２０７の処理は、実施例２では不要である。データ転送制御プログラムは、続けて連累QPをInitステートに遷移させてもよい。

　ステップ１６０７からステップ１６０９の処理は、実施例１における図１２のステップ１２０９から１２１１の処理と同内容であるので、説明を省略する。

　図１５と図１６の処理が完了すると、両端ノードのQPが共にRTSステートとなり、データ転送を再開することができる。

　図１７は、実施例２におけるエラー通知用QP間の通信を説明する図である。先ず、ノード２で動作する障害監視プログラムが、データ転送用QPにエラーを検出する（１７０１）。次ぎに、ノード２で動作する障害監視プログラムが、エラー通知用QP5（７１５）から、エラーが発生したQPのQP番号と、そのステート識別情報を即値に格納したRDMA Write　with　Immediateリクエストを、ノード１のエラー通知用QP2（７１２）へ送信する（１７０２）。エラー通知を送信したノード２で動作する障害監視プログラムは、エラーが発生したQP、つまり障害QPをエラーステート、Resetステート、Initステート、RTRステート、RTSステートの順に遷移させる（１７０３）。

　エラー通知を受信したノード１で動作するデータ転送制御プログラムは、１７０２で通知された即値の内容から、障害QPに対応するQP、つまり連累QPを特定する。そして、連累QPをエラーステート、Resetステート、Initステート、RTRステート、RTSステートの順に遷移させる（１７０４）。最後に、ノード２の障害監視プログラムとノード１のデータ転送制御プログラムは、RTSステートへの状態遷移が完了したQPのQP番号とそのステート識別情報を即値に格納したRDMA　Write　with　Immediateリクエストを送受信する（１７０５、１７０６）。以上で、ノード１とノード２の間でデータ転送を再開できる。実施例２に係るストレージ装置では、QPの再作成を行わないので、実施例１で行われていたQP番号の通知（図１３の１３０５、１３０６）が不要である。そのため、データ転送の再開までの時間を短縮できる。

　図１８と図１９を参照して、本発明の実施例３のストレージ装置を説明する。先ず、実施例３の概要を述べる。実施例３のストレージ装置では、QPエラーの検出方法が、実施例１または実施例２のストレージ装置とは異なる。実施例１または実施例２のストレージ装置では、障害監視プログラムがエラーを示すコンプリーションを取得するか、非同期エラーを受信することにより、データ転送用QPのエラーを検出していた。それに対して、実施例３のストレージ装置では、データ転送用QPのエラーを検出するために、エラー通知用QPでハートビート通信を行う。

　図１８は、実施例３におけるハートビート通信の送信処理を説明する図である。このフローにより、各ストレージノードは、データ転送用QPのステートを取得し、それをエラー通知用QPから送信する。送信データ形式は図１０に示す通りで、実施例１または実施例２と同様に、RDMA　Write　with　Immediateオペレーションの即値として送信する。

　ストレージノードは、ノードにデータ転送用QPがＮ個ある場合、データ転送用QPごとにハートビート送信プログラムを実行する。ハートビート送信プログラムは、データ転送制御プログラムや障害監視プログラムと同様に、各ノード上で一つのプロセスとして動作するストレージ制御プログラムの一部として動作する。以下では、ハートビート送信プログラムが、Ｎ個のデータ転送用QPのうち特定のQP（これをQP_iと呼ぶ）に対するハートビート送信を行う場合の例を説明する。

　先ず、各ストレージノードで動作するハートビート送信プログラムは、データ転送用QP_iのステートを取得する（１８０１）。QP_iのステートは、たとえばVerbs APIのibv_query_qp()を使用することで取得できる。

　次ぎに、ハートビート送信プログラムは、ステートを取得したデータ転送用QPがエラーの場合はステップ１８０３へ、それ以外の場合はステップ１８０４へ進める。

　次ぎに、ハートビート送信プログラムは、エラーステートであるQP_iに対する障害処理を起動する（１８０３）。ここで起動される障害処理は、図１１または図１５の処理と同様である。その後、ハートビート送信プログラムは、ステップ１８０４へ処理を進める。

　次ぎに、ハートビート送信プログラムは、取得したステートをRDMA　Write　with　Immediateオペレーションの即値として、エラー通知用QPから送信する（１８０４）。

　その後、ハートビート送信プログラムは、所定時間待機する（１８０６）。この時間は、ハートビート送受信処理がストレージ装置に与える影響が十分小さく、且つ障害発生から検出までの時間がストレージ装置動作にあたえる影響も十分小さくなるように設定する。

　ハートビート送信プログラムは、ステップ１８０１からステップ１８０６の処理を繰り返す。

　図１９は、実施例３におけるハートビート通信の受信処理を説明する図である。ハートビート通信の受信処理は、ハートビート受信プログラムにより実行される。このフローにより、各ストレージノードは、通信相手のデータ転送用QPのステートを受信し、その内容に従って、連累QPに対する障害処理の起動要否を判断する。ハートビート送信プログラムと同様、ノードにデータ転送用QPがＮ個ある場合、ストレージノードは、データ転送用QPごとにハートビート受信プログラムを実行する。ハートビート受信プログラムも、ハートビート送信プログラムと同様に、各ノード上で一つのプロセスとして動作するストレージ制御プログラムの一部として動作する。

　以下、図１８の説明と同様に、通信相手のノードの複数のデータ転送用QPのうち、特定のQP（これをQP_iと呼ぶ）のステートを受信するハートビート受信プログラムについて、処理の流れを説明する。先ず、各ストレージノードで動作するハートビート受信プログラムは、通信相手のノードで動作するハートビート送信プログラムがエラー通知用QPを介して送信する、通信相手のノードのデータ転送用QP_iのステートが受信されて来るのを待つ（１９０１）。

　受信した通信相手のノードのデータ転送用QP_iのステートがエラーか、または所定時間内にステートを受信できなかった場合は、ハートビート受信プログラムは処理をステップ１９０３へ進める。それ以外の場合は、ステップ１９０１から処理を繰り返す。

　ステップ１９０３では、ハートビート受信プログラムは、連累QP_iを特定し、連累QP_iに対する障害処理を起動する。ここで起動される障害処理は、図１２または図１６の処理と同様である。

　ハートビート受信プログラムは、ステップ１９０１からステップ１９０３の処理を繰り返す。

　以上のように、各ノードのエラー通知用QP間でハートビート通信を行っても、通信相手のノードのデータ転送用QPに発生したQPエラーを検出し、障害QP及び連累QPに関する障害処理を起動することができる。

　図２０と図２１を参照して、本発明の実施例４のストレージ装置を説明する。IBの信頼性があるデータ転送サービス　(RCサービス)では、QPを使うプロセス毎と、通信相手となるノード毎に、QPを一対一で接続する必要がある。つまり、接続ノード数が多いほど、多くのQPを作成する必要があるので、QPによって消費されるリソース（メモリ消費量等）が大きくなる。最新のHCAがサポートするDynamically　Connected　Transport（以下DCと略す）によると、RCサービスにおいても、一対多のQP接続が可能となる。DCの詳細については、たとえば特許文献２に開示されている。以下、リクエスタとなるDC対応QPをDCイニシエータ、レスポンダとなるDC対応QPをDCターゲットと呼ぶ。

　通常の（DC対応ではない）QPは、２個のQP間で双方向にリクエストを送信してデータ転送が可能であるが、DC対応QPでは、DCイニシエータからDCターゲットへの方向にのみ、リクエストを送信可能である。また、通常のQPでは、InitステートからRTRステートへ状態遷移する時に、QPにサービスレベルが設定される。それに対してDCでは、DCイニシエータにリクエストをポストするときに、リクエスト毎に使用するサービスレベルを設定する。実施例４ではエラー通知用QPにDCを適用することにより、エラー通知に必要なQPリソースを削減する。その結果、ノード数がｎの場合に全て通常のQPを利用した場合と比べて、エラー通知用QPに必要なメモリリソースを２／ｎにすることができる。

　図２０は、実施例４におけるストレージノード間の論理的な接続を説明する図である。

　図２０において、DCI_1（２００４）、DCI_i（２０１４）とDCI_n（２０２４）は、DCイニシエータである。DCT_1（２００５）、DCT_i（２０１５）とDCT_n（２０２５）は、DCターゲットである。

　ノード１（２０００）は、ユーザデータ領域２００１のデータを送受信するために、QP_U_1_i（２００６）とQP_U_1_n（２００８）を含むｎ個のQPを備える。また、ノード１（２０００）は、制御メモリ領域２００２のデータを送受信するために、QP_S_1_i（２００７）とQP_S_1_n（２００９）を含むｎ個のQPを備える。さらに、ノード１は、エラー通知送信用にDCI_1（２００４）とエラー通知受信用にDCT_1（２００５）を備える。

　図２０は、ｎ個のストレージノードの相互接続のうち、ノード１とノードｉ間とノード１とノードｎ間の接続関係を示している。図示していない他のノード間の接続関係も同様である。

　ノードｉ（２０１０）は、ユーザデータ領域２０１１のデータを送受信するために、QP_U_i_1（２０１６）を含むｎ個のQPを備える。また、ノードｉ（２０１０）は、制御メモリ領域２０１２のデータを送受信するために、QP_S_i_1（２０１７）を含むｎ個のQPを備える。さらに、ノードｉは、エラー通知送信用にDCI_i（２０１４）とエラー通知受信用にDCT_i（２０１５）を備える。

　ノードｎ（２０２０）は、ユーザデータ領域２０２１のデータを送受信するために、QP_U_n_1（２０２６）を含むｎ個のQPを備える。また、ノードｎ（２０２０）は、制御メモリ領域２０２２のデータを送受信するために、QP_S_n_1（２０２７）を含むｎ個のQPを備える。さらに、ノードｎは、エラー通知送信用にDCI_n（２０２４）とエラー通知受信用にDCT_n（２０２５）を備える。

　ノード１（２０００）のQP_U_1_i（２００６）とノードｉ（２０１０）のQP_U_i_1（２０１６）は、仮想レーン２０３０を介してユーザデータを送受信する。ノード１（２０００）のQP_S_1_i（２００７）とノードｉ（２０１０）のQP_S_i_1（２０１７）は、仮想レーン２０３１を介して制御データを送受信する。

　ノード１（２０００）のQP_U_1_n（２００８）とノードｎ（２０２０）のQP_U_n_1（２０２６）は、仮想レーン２０３３を介してユーザデータを送受信する。ノード１（２０００）のQP_S_1_n（２００９）とノードｎ（２０２０）のQP_S_n_1（２０２７）は、仮想レーン２０３４を介して制御データを送受信する。

　ノード１（２０００）のDCI_1（２００４）は、仮想レーン２０３２を介してノードｉ（２０１０）のDCT_i（２０１５）と、仮想レーン２０３５を介してノードｎ（２０２０）のDCT_n（２０２５）に、エラー通知を送信することができる。ノード１（２０００）のDCT_1（２００５）は、仮想レーン２０３２を介してノードｉ（２０１０）のDCI_i（２０１４）から、そして仮想レーン２０３５を介してノードｎ（２０２０）のDCI_n（２０２４）から、エラー通知を受信することができる。

　図２１は、実施例４におけるQPエラー検出方法を説明する図である。図２１(a)は、ノード１（２０００）からノードｉ（２０１０）へデータを転送する場合、図２１(b)は、ノードｉ（２０１０）からノード１（２０００）へデータ転送する場合を示す。図２１(a)及び図２１(b)において、ノード１（２０００）は、ユーザデータ転送用QP_U_1_i（２００６）、制御データ転送用QP_S_1_i（２００７）と、エラー通知送信用DCI_1（２００５）と、エラー通知受信用DCT_1（２００４）を有する。同様に、ノードｉ（２０１０）は、ユーザデータ転送用QP_U_i_1（２０１６）、制御データ転送用QP_S_i_1（２０１７）と、エラー通知送信用DCI_i（２０１５）と、エラー通知受信用DCT_i（２０１４）を有する。ノード１（２０００）とノードｉ（２０１０）は、３本の仮想レーン２０３０、２０３１、２０３２を有するIBリンク２１０１で接続されている。

　図２１(a)では、QP_U_1_i（２００６）、QP_S_1_i（２００７）とDCI_1（２００５）がリクエスタであり、QP_U_i_1（２０１６）、QP_S_i_1（２０１７）とDCT_i（２０１４）がレスポンダである。図２１(a)において、ノード１（２０００）で動作するデータ転送制御プログラム２１０２は、ユーザデータをサービスレベル０に設定したQP_U_1_i（２００６）からノードｉ（２０１０）のQP_U_i_1（２０１６）へ転送し、制御データをサービスレベル１に設定したQP_S_1_i（２００７）からノードｉ（２０１０）のQP_S_i_1（２０１７）へ転送する。ノード１（２０００）で動作する障害監視プログラム２１０３は、QP_U_1_i（２００６）とQP_S_1_i（２００７）のステートをチェックする。QP_U_1_i（２００６）またはQP_S_1_i（２００７）のエラーを検出した場合、障害監視プログラム２１０３は、サービスレベル２に設定したリクエストを、DCI_1（２００５）からノードｉ（２０１０）のDCT_i（２０１４）へ送信することで、エラー通知を送信する。データ転送制御プログラム２１０５は、エラー通知をDCT_i（２０１４）に接続されたコンプリーションキューから取得する。

　図２１(b)では、QP_U_i_1（２０１６）、QP_S_i_1（２０１７）とDCI_i（２０１５）がリクエスタであり、QP_U_1_i（２００６）、QP_S_1_i（２００７）とDCT_1（２００４）がレスポンダである。図２１(b)において、ノードｉ（２０１０）で動作するデータ転送制御プログラム２１０５は、ユーザデータをサービスレベル０に設定したQP_U_i_1（２０１６）からノード１（２０００）のQP_U_1_i（２００６）へ転送し、制御データをサービスレベル１に設定したQP_S_i_1（２０１７）からノード１（２０００）のQP_S_1_i（２００７）へ転送する。ノードｉ（２０１０）で動作する障害監視プログラム２１０４は、QP_U_i_1（２０１６）とQP_S_i_1（２０１７）のステートをチェックする。QP_U_i_1（２０１６）またはQP_S_i_1（２０１７）のエラーを検出した場合、障害監視プログラム２１０４は、サービスレベル２に設定したリクエストを、DCI_i（２０１５）からノード１（２０００）のDCT_1（２００４）へ送信することで、エラー通知を送信する。データ転送制御プログラム２１０２は、エラー通知をDCT_1（２００４）に接続されたコンプリーションキューから取得する。

　障害QP及び連累QPに関して、障害監視プログラムやデータ転送制御プログラムが実施する処理は、実施例１から実施例３で説明したものと同様である。つまり、図１１や図１２で説明した処理、あるいは図１５や図１６で説明した処理等が行われる。

　図２２を参照して、本発明の実施例５のストレージ装置を説明する。実施例５のストレージ装置は、データ転送用にもDC対応QPを利用する。その結果、ノード数がｎの場合に全て通常のQPを利用した場合と比べて、QPに必要なメモリリソースを２／ｎにすることができる。

　DC対応QPでは、DCイニシエータからDCターゲットへのみリクエストを送信するという非対称性があるので、DCターゲットがエラーになる場合とDCイニシエータがエラーになる場合とでは、エラーの影響が異なる。

　先ず、DCイニシエータがエラーになる場合を説明する。一つのDCイニシエータは複数のDCターゲットにリクエストを送信できる。あるDCイニシエータがエラーステートに遷移した場合、そのDCイニシエータはリクエストを送信しなくなるので、図６のようなLocal　ACK　Timeoutは発生しない。ただし、DCイニシエータとそれが通信していた全DCターゲットを再作成またはリセットする必要がある。そこで、実施例５のストレージ装置は、エラー通知用QPを使って、そのDCイニシエータが通信していた全DCターゲットが属するノードにエラーを通知する。

　次ぎに、DCターゲットがエラーになる場合を説明する。一つのDCターゲットは、複数のDCイニシエータからリクエストを受信することができる。あるDCイニシエータから受信したリクエストにエラーが含まれていた場合、DCターゲットはエラーステートに遷移する。エラーステートに遷移したDCターゲットに対して、別のDCイニシエータがリクエストを送信した場合、通信相手に無断でQPがエラーになる図６の場合と同様に、後からリクエストを送信したDCイニシエータにおいてLocal　ACK　Timeoutが発生してしまう。そこで、実施例５のストレージ装置は、DCターゲットがエラーステートに遷移した場合、エラー通知用QPを使って、エラーになったDCターゲットと通信していた全DCイニシエータが属するノードにエラーを通知する。

　図２２は、実施例５におけるQPエラー検出方法を説明する図である。

　ノード１（２０００）は、ユーザデータ送信用DCI_U_1（２２０１）、制御データ送信用DCI_S_1（２２０２）、エラー通知受信用DCT_1（２００５）、ユーザデータ受信用DCT_U_1（２２０３）、制御データ受信用DCT_S_1（２２０４）と、及びエラー通知送信用DCI_1（２００４）を有する。同様に、ノードｉ（２０１０）は、ユーザデータ受信用DCT_U_i（２２１１）、制御データ受信用DCT_S_i（２２１２）、エラー通知送信用DCI_i（２０１４）、ユーザデータ送信用DCI_U_i（２２１３）、制御データ送信用DCI_S_i（２２１４）と、及びエラー通知受信用DCT_i（２０１５）を有する。

　DCI_U_1（２２０１）、DCI_S_1（２２０２）、DCI_1（２００４）、DCI_i（２０１４）、DCI_U_i（２２１３）、及びDCI_S_i（２２１４）は、DCイニシエータである。また、DCT_1（２００５）、DCT_U_1（２２０３）、DCT_S_1（２２０４）、DCT_U_i（２２１１）、DCT_S_i（２２１２）、及びDCT_i（２０１５）は、DCターゲットである。ノード１（２０００）とノードｉ（２０１０）は、３本の仮想レーン２０３０、２０３１、２０３２を有するIBリンク２１０１で接続されている。

　ノード１（２０００）で動作するデータ転送制御プログラム２１０２は、サービスレベル０に設定したリクエストをDCI_U_1（２２０１）からノードｉ（２０１０）のDCT_U_i（２２１１）へ送信することにより、ユーザデータを転送する。また、データ転送制御プログラム２１０２は、サービスレベル１に設定したリクエストをDCI_S_1（２２０２）からノードｉ（２０１０）のDCT_S_i（２２１２）へ送信することにより、制御データを転送する。ノードｉ（２０１０）で動作する障害監視プログラム２１０３は、DCT_U_i（２２１１）とDCT_S_i（２２１２）とDCI_U_i（２２１３）とDCI_S_i（２２１４）のステートをチェックする。DCT_U_i（２２１１）またはDCT_S_i（２２１２）またはDCI_U_i（２２１３）またはDCI_S_i（２２１４）のエラーを検出した場合、障害監視プログラム２１０３は、サービスレベル２に設定したリクエストを、DCI_i（２０１４）からノード１（２０００）のDCT_1（２００５）へ送信することで、エラー通知を送信する。データ転送制御プログラム２１０２は、エラー通知をDCT_1（２００５）に接続されたコンプリーションキューから取得する。

　ノードｉ（２０１０）で動作するデータ転送制御プログラム２１０５は、サービスレベル０に設定したリクエストをDCI_U_i（２２１３）からノード１（２０００）のDCT_U_1（２２０３）へ送信することにより、ユーザデータを転送する。また、データ転送制御プログラム２１０５は、サービスレベル１に設定したリクエストをDCI_S_i（２２１４）からノード１（２０００）のDCT_S_1（２２０４）へ送信することにより、制御データを転送する。ノード１（２０００）で動作する障害監視プログラム２１０４は、DCI_U_1（２２０１）とDCI_S_1（２２０２）とDCT_U_1（２２０３）とDCT_S_1（２２０４）のステートをチェックする。DCI_U_1（２２０１）またはDCI_S_1（２２０２）またはDCT_U_1（２２０３）またはDCT_S_1（２２０４）のエラーを検出した場合、障害監視プログラム２１０４は、サービスレベル２に設定したリクエストを、DCI_1（２００４）からノードｉ（２０１０）のDCT_i（２０１５）へ送信することで、エラー通知を送信する。データ転送制御プログラム２１０５は、エラー通知をDCT_i（２０１５）に接続されたコンプリーションキューから取得する。

　障害QP及び連累QPに関する処理は、実施例１から実施例３と同様である。ただし、ノード１（２０００）のDCイニシエータまたはDCターゲットのエラーを検出した場合、障害監視プログラム２１０４は、ノードｉ（２０１０）以外のノード（ノード２～ノードｎ）にもエラー通知を送信する。

　図２３を参照して、本発明の実施例６のストレージ装置を説明する。実施例６のストレージ装置は、DC対応QPを制御データ転送用とエラー通知用で兼用にするよう構成される。あるいは、DC対応QPをユーザデータ転送用とエラー通知用で兼用にするように構成されてもよい。図２３では、DC対応QPを制御データ転送用とエラー通知用で兼用にした構成が示されている。

　DC対応QPを制御データ転送用(またはユーザデータ転送用)とエラー通知用で兼用にすることで、エラー通知用QPに必要なメモリリソースを減らすことができる。DC対応QPでは、DCイニシエータからDCターゲットへのリクエスト送信に限られるので、エラー通知と制御データ送信のDCイニシエータを兼用にしても、制御データ転送とエラー通知に兼用にしたDCターゲットのエラー検出と通知は可能である。

　先ず、DCイニシエータのエラーを通知する場合の動作を説明する。ユーザデータ送信用DCイニシエータがエラーになった場合は、制御データ送信用DCイニシエータからエラー通知を送信する。制御データ送信用DCイニシエータがエラーになった場合は、ユーザデータ送信用DCイニシエータからエラー通知を送信する。

　ノード１（２０００）で動作するデータ転送制御プログラム２１０２は、サービスレベル０に設定したリクエストをDCI_U_1（２２０１）からノードｉ（２０１０）のDCT_U_i（２２１１）へ送信することにより、ユーザデータを転送する。また、データ転送制御プログラム２１０２は、サービスレベル１に設定したリクエストをDCI_S_1（２２０２）からノードｉ（２０１０）のDCT_S_i（２２１２）へ送信することにより、制御データを転送する。ノード１（２０００）で動作する障害監視プログラム２１０４は、DCI_U_1（２２０１）とDCI_S_1（２２０２）のステートをチェックする。DCI_U_1（２２０１）またはDCI_S_1（２２０２）のエラーを検出した場合、障害監視プログラム２１０４は、リクエストにサービスレベル２に設定したエラー通知を、DCI_S_1（２２０２）（またはDCI_U_1（２２０１））からノードｉ（２０１０）のDCT_S_i（２２１２）（またはDCT_U_i（２２１１））へ送信する。ノードｉ（２０１０）で動作するデータ転送制御プログラム２１０５は、エラー通知をDCT_S_i（２２１２）（またはDCT_U_i（２２１１））に接続されたコンプリーションキューから取得する。

　ノードｉ（２０１０）で動作するデータ転送制御プログラム２１０５は、サービスレベル０に設定したリクエストをDCI_U_i（２２１３）からノード１（２０００）のDCT_U_1（２２０３）へ送信することにより、ユーザデータを転送する。また、データ転送制御プログラム２１０５は、サービスレベル１に設定したリクエストをDCI_S_i（２２１４）からノード１（２０００）のDCT_S_1（２２０４）へ送信することにより、制御データを転送する。ノードｉ（２０１０）で動作する障害監視プログラム２１０３は、DCI_U_i（２２１３）とDCI_S_i（２２１４）のステートをチェックする。DCI_U_i（２２１３）またはDCI_S_i（２２１４）のエラーを検出した場合、障害監視プログラム２１０３は、リクエストにサービスレベル２に設定したエラー通知を、DCI_S_i（２２１４）（またはDCI_U_i（２２１３））からノード１（２０００）のDCT_S_1（２２０４）（またはDCT_U_1（２２０３））へ送信する。ノード１（２０００）で動作するデータ転送制御プログラム２１０２は、エラー通知をDCT_S_1（２２０４）（またはDCT_U_1（２２０３））に接続されたコンプリーションキューから取得する。

　次ぎに、DCターゲットのエラーを通知する場合の動作を説明する。ユーザデータ受信用DCターゲット及び制御データ受信用DCターゲットがエラーになった場合は、制御データ送信用DCイニシエータからエラー通知を送信する。

　ノード１（２０００）で動作する障害監視プログラム２１０４は、DCT_U_1（２２０３）とDCT_S_1（２２０４）のステートをチェックする。DCT_U_1（２２０３）またはDCT_S_1（２２０４）のエラーを検出した場合、障害監視プログラム２１０４は、リクエストにサービスレベル２に設定したエラー通知を、DCI_S_1（２２０２）からノードｉ（２０１０）のDCT_S_i（２２１２）へ送信する。ノードｉ（２０１０）で動作するデータ転送制御プログラム２１０５は、エラー通知をDCT_S_i（２２１２）に接続されたコンプリーションキューから取得する。

　ノードｉ（２０１０）で動作する障害監視プログラム２１０３は、DCT_U_i（２２１１）とDCT_S_i（２２１２）のステートをチェックする。DCT_U_i（２２１１）またはDCT_S_i（２２１２）のエラーを検出した場合、障害監視プログラム２１０３は、リクエストにサービスレベル２に設定したエラー通知を、DCI_S_i（２２１４）からノード１（２０００）のDCT_S_1（２２０４）へ送信する。ノード１（２０００）で動作するデータ転送制御プログラム２１０２は、エラー通知をDCT_S_1（２２０４）に接続されたコンプリーションキューから取得する。

　障害QP及び連累QPに関する処理は、実施例１から実施例３と同様である。ただし、DC対応Queue　Pairの作成及びデータ転送可能なステートへの遷移に必要な情報が32bitより大きく即値に格納できない場合は、障害監視プログラムまたはデータ転送制御プログラムが、RDMA　Write　with　Immediateリクエストの送信先アドレスと、データ転送長とScatter　Gatgerリスト数を必要に応じて設定し、必要な情報を送信する。この場合、エラー通知を受信した障害監視プログラムまたはデータ転送制御プログラムは、即値に格納された以外の情報を、所定のアドレスから読み出す。また、実施例５と同様に、ノード１（２０００）のＤＣイニシエータまたはDCターゲットのエラーを検出した場合、障害監視プログラム２１０４は、ノードｉ（２０１０）以外のノード（ノード２～ノードｎ）にもエラー通知を送信する。

　以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。

　たとえば本発明は、内部ネットワークにInfiniBandを適用したストレージ装置のみならず、サーバ装置など、各種情報処理システムに対しても広く適用が可能である。

７００、７０１…ストレージノード、７０２、７０５・・・データ転送制御プログラム、７０３、７０４・・・障害監視プログラム、７１０～７１５・・・QP、７２０～７２２・・・仮想レーン、７３０・・・IBリンク

Claims

　通信リクエストの送受信用キューと識別番号を有する論理ポートを複数有する複数のストレージノードと、前記複数のストレージノードを相互接続する内部ネットワークを有するストレージ装置において、
　前記複数のストレージノードのうち前記第１ストレージノードは、前記論理ポートとして、前記第２ストレージノードとのデータ通信に用いられる第１データ通信論理ポートと、前記第１データ通信論理ポートの状態を前記第２ストレージノードに通知するために用いられる第１エラー通信論理ポートを有し、
　前記複数のストレージノードのうち前記第２ストレージノードは、前記論理ポートとして、第１データ通信論理ポートの通信先となる前記論理ポートで、前記第１ストレージノードとのデータ通信に用いられる第２データ通信論理ポートと、前記第２データ通信論理ポートの状態を前記第１ストレージノードに通知するために用いられる第２エラー通信論理ポートを有し、
　前記第１ストレージノードは、前記第１データ通信論理ポートがエラー状態に遷移したことを検知した時、
　前記第１エラー通信論理ポートを用いて、前記第２ストレージノードに対して、前記第１データ通信論理ポートの識別番号と状態を通知する、
ことを特徴とするストレージ装置。
　前記第１エラー通信論理ポートを用いた情報転送は、前記第１データ通信論理ポートを用いた情報転送よりも高い優先度で実施される
ことを特徴とする、請求項１に記載のストレージ装置。
　前記第１ストレージノードは、前記第１データ通信論理ポートがエラー状態に遷移したことを検知した時、
　前記第１データ通信論理ポートを破棄し、
　前記第２ストレージノードとのデータ通信に用いられる第３データ通信論理ポートを作成し、
　前記第１エラー通信論理ポートを用いて、前記作成された第３データ通信論理ポートの識別番号を前記第２ストレージノードに通知する、
ことを特徴とする、請求項１に記載のストレージ装置。
　前記第２ストレージノードは、前記第１データ通信論理ポートの識別番号と前記エラー状態を含む通知を受信すると、
　前記第２データ通信論理ポートを破棄し、
　前記第１ストレージノードとのデータ通信に用いられる第４データ通信論理ポートを作成し、
　前記第２エラー通信論理ポートを用いて、前記作成された第４データ通信論理ポートの識別番号を前記第１ストレージノードに通知する、
ことを特徴とする、請求項３に記載のストレージ装置。
　前記第１ストレージノードは、前記第３データ通信論理ポートの状態をリクエスト送受信可能な状態に遷移させた後、前記第２ストレージノードに、前記第３データ通信論理ポートの識別番号と状態を通知し、
　前記第２ストレージノードは、前記第４データ通信論理ポートの状態をリクエスト送受信可能な状態に遷移させた後、前記第１ストレージノードに、前記第４データ通信論理ポートの識別番号と状態を通知する、
ことを特徴とする、請求項４に記載のストレージ装置。
　前記第２エラー通信論理ポートを用いた情報転送は、前記第２データ通信論理ポートを用いた情報転送よりも高い優先度で実施される
ことを特徴とする、請求項４に記載のストレージ装置。
　前記第１ストレージノードは、前記第１データ通信論理ポートの状態を定期的に取得することで、前記第１データ通信論理ポートがエラー状態に遷移したことを検知する、
ことを特徴とする、請求項１に記載のストレージ装置。
　前記第１ストレージノードは、前記第１データ通信論理ポートがエラー状態に遷移したことを検知した時、
　前記第１データ通信論理ポートの状態を、リセット状態に遷移させた後、リクエスト送受信可能な状態に遷移させ、
　前記第１データ通信論理ポートの状態がリクエスト送受信可能な状態に遷移した後、前記第２ストレージノードに、前記第１データ通信論理ポートの識別番号と状態を通知する、
ことを特徴とする、請求項１に記載のストレージ装置。
　前記第１データ通信論理ポートは、前記第２ストレージノード以外の前記ストレージノードとのデータ通信にも用いられる前記論理ポートであって、
　前記第１ストレージノードは、前記第１データ通信論理ポートの状態を前記第２ストレージノード以外の前記ストレージノードにも通知する
ことを特徴とする、請求項１に記載のストレージ装置。
　前記第１ストレージノードは、前記第１データ通信論理ポートに加え、前記第２ストレージノードとのデータ通信に用いられる制御データ通信論理ポートを有し、
　前記第１ストレージノードは、前記第１データ通信論理ポートがエラー状態に遷移したことを検知した時、
　前記制御データ通信論理ポートを用いて、前記第２ストレージノードに前記第１データ通信論理ポートの識別番号と状態を通知する、
ことを特徴とする、請求項９に記載のストレージ装置。
　前記第１ストレージノードはさらに、前記複数のストレージノードの１つである第３ストレージノードとのデータ通信に用いられる第５データ通信論理ポートを有し、
　前記第１エラー通信論理ポートは、第１データ通信論理ポートの状態を前記第２ストレージノードに通知することに加え、前記第５データ通信論理ポートの状態を前記第３ストレージノードに通知するために用いられる、
ことを特徴とする、請求項１に記載のストレージ装置。
　前記内部ネットワークは、Ｉｎｆｉｎｉｂａｎｄ規格のネットワークであり、
　前記論理ポートはＱｕｅｕｅ　Ｐａｉｒである、
ことを特徴とする、請求項１に記載のストレージ装置。
　前記ストレージノードは、前記第１データ通信論理ポートまたは前記第２データ通信論理ポートの識別番号と状態を通知する際、前記識別番号と前記状態がＲＤＭＡ　Ｗｒｉｔｅ　ｗｉｔｈ　Ｉｍｍｅｄｉａｔｅオペレーションの即値に設定されたリクエストを作成し、前記リクエストをＱｕｅｕｅ　Ｐａｉｒにポストすることで通知を行う、
ことを特徴とする、請求項１２に記載のストレージ装置。
　通信リクエストの送受信用キューと識別番号を有する論理ポートを複数有する複数のストレージノードと、前記複数のストレージノードを相互接続する内部ネットワークを有し、
　前記複数のストレージノードのうち前記第１ストレージノードは、前記論理ポートとして、前記第２ストレージノードとのデータ通信に用いられる第１データ通信論理ポートと、前記第１データ通信論理ポートの状態を前記第２ストレージノードに通知するために用いられる第１エラー通信論理ポートを有し、
　前記複数のストレージノードのうち前記第２ストレージノードは、前記論理ポートとして、第１データ通信論理ポートの通信先となる前記論理ポートで、前記第１ストレージノードとのデータ通信に用いられる第２データ通信論理ポートと、前記第２データ通信論理ポートの状態を前記第１ストレージノードに通知するために用いられる第２エラー通信論理ポートを有するストレージ装置の制御方法であって、
　前記第１ストレージノードは、前記第１データ通信論理ポートがエラー状態に遷移したことを検知した時、
　前記第１エラー通信論理ポートを用いて、前記第２ストレージノードに対して、前記第１データ通信論理ポートの識別番号と状態を通知する、
ことを特徴とするストレージ装置の制御方法。
　前記第１ストレージノードは、前記第１データ通信論理ポートがエラー状態に遷移したことを検知した時、
　前記第１データ通信論理ポートを破棄し、
　前記第２ストレージノードとのデータ通信に用いられる第３データ通信論理ポートを作成し、
　前記第１エラー通信論理ポートを用いて、前記作成された第３データ通信論理ポートの識別番号を前記第２ストレージノードに通知する、
ことを特徴とする、請求項１４に記載のストレージ装置の制御方法。