JPWO2015162663A1 - ストレージシステム - Google Patents

ストレージシステム Download PDF

Info

Publication number
JPWO2015162663A1
JPWO2015162663A1 JP2014530038A JP2014530038A JPWO2015162663A1 JP WO2015162663 A1 JPWO2015162663 A1 JP WO2015162663A1 JP 2014530038 A JP2014530038 A JP 2014530038A JP 2014530038 A JP2014530038 A JP 2014530038A JP WO2015162663 A1 JPWO2015162663 A1 JP WO2015162663A1
Authority
JP
Japan
Prior art keywords
storage device
host computer
logical volume
write data
write
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014530038A
Other languages
English (en)
Other versions
JP5620614B1 (ja
Inventor
豊 渡部
豊 渡部
秀雄 斎藤
秀雄 斎藤
智大 川口
智大 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP5620614B1 publication Critical patent/JP5620614B1/ja
Publication of JPWO2015162663A1 publication Critical patent/JPWO2015162663A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
    • G06F11/2076Synchronous techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0605Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0665Virtualisation aspects at area level, e.g. provisioning of virtual or logical volumes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2064Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring while ensuring consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer Security & Cryptography (AREA)

Abstract

第1のストレージ装置は第1の論理ボリュームを提供し、第2のストレージ装置は第1の論理ボリュームとペア構成を組む第2の論理ボリュームを提供し、第1又は第2の論理ボリュームへのライトデータをホスト計算機から受領した場合、第1、第2の論理ボリュームの順にライトデータを二重書きし、第1のストレージ装置は第1の論理ボリュームへのリード要求をホスト計算機から受領した場合、リード要求のあった記憶領域が二重書き中でない場合、第1の論理ボリュームからデータを読み出してホスト計算機に応答し、第2のストレージ装置は第2の論理ボリュームへのリード要求をホスト計算機から受領した場合、第2の論理ボリュームからデータを読み出してホスト計算機に応答するストレージシステムを提供する。

Description

本発明は、ストレージシステムに関する。
近年、ビックデータ解析の普及などにより情報の重要性はさらに高まっており、重要な情報を保護するためのディザスタリカバリの重要性は高まっている。ディザスタリカバリ技術として特許文献1に、通常運用時にはメインサイトのストレージ装置のみにホスト計算機からのリード・ライトを受け付け、リモートサイトのストレージ装置にコピーし、メインサイトの障害発生時にリモートサイトへアクセスするように切り替える技術が開示されている。
米国特許出願公開第2009/0271582号明細書
ビックデータ解析などデータ量の増大は著しく、その結果システムは大規模化・複雑化、装置点数増加し、バックアップサイトのコストも増加しており、バックアップサイトのリソースの有効活用が望まれる。特許文献1に開示されている技術は通常運用時はメインサイトのストレージ装置のみでリード・ライトを受信するため、リモートサイトのストレージ装置にアクセスできず、リソースを十分に有効活用できない。
上記課題を解決するために、第1のストレージ装置及び第2のストレージ装置を備えるストレージシステムであって、第1のストレージ装置は第1の論理ボリュームを提供し、第2のストレージ装置は第1の論理ボリュームとペア構成を組む第2の論理ボリュームを提供し、第1のストレージ装置は第1の論理ボリュームの記憶領域のうち二重書き中である記憶領域を管理し、第1の論理ボリューム又は第2の論理ボリュームへのライトデータをホスト計算機から受領した場合、第1の論理ボリューム、第2の論理ボリュームの順にライトデータを二重書きし、第1のストレージ装置は第1の論理ボリュームへのリード要求をホスト計算機から受領した場合、リード要求のあった記憶領域が二重書き中か判断し、判断の結果二重書き中の場合、規定時間経過後リード要求のあった記憶領域が二重書き中か判断を再度おこない、判断の結果二重書き中でない場合、第1の論理ボリュームからリード要求のあったデータを読み出してホスト計算機に応答し、第2のストレージ装置は第2の論理ボリュームへのリード要求をホスト計算機から受領した場合、第2の論理ボリュームからリード要求のあったデータを読み出してホスト計算機に応答するストレージシステムを提供する。
本発明の一態様によれば、リモートサイトのストレージ装置でリード/ライトを受信できるため、リモートサイトのリソースを有効に活用する事ができる。
PVOLにライト指示が入った場合の処理の流れの概要を示している。 PVOL及びSVOLにリード指示が入った場合の処理の流れの概要を示している。 本実施形態における情報システムを含む計算機システムの構成例を示している。 ホスト計算機及びストレージ装置のハードウェア構成例を模式的に示している。 ストレージ装置がホスト計算機に提供する仮想構成例を示している。 ストレージ装置のCMPKの共有メモリ内に格納されている情報を示している。 ストレージ装置のMPPKのローカルメモリ内に格納されている情報を示している。 VOLマッピングテーブルの構成例を示している。 HAボリュームペア管理テーブルの構成例を示している。 LUパス管理テーブルの構成例を示している。 VOL管理テーブルの構成例を示している。 PG管理テーブルの構成例を示している。 キャッシュスロット管理テーブルの構成例を示している。 JOB管理テーブルの構成例を示している。 ホスト計算機に対して、仮想ストレージ装置及び仮想ボリュームの情報を提供する方法のシーケンスを示している。 ホスト計算機からPVOLへのライト処理のシーケンスを示している。 ホスト計算機からSVOLへのライト処理のシーケンスを示している。 ホスト計算機からのライトコマンドに対するMDKC及びRDKCの処理のフローチャートを示している。 MDKCとRDKCとの間のライトコマンドに対する、MDKCとRDKCの処理のフローチャートを示している。 ホスト計算機からPVOLへのリードコマンドに対する処理のシーケンスを示している。 ホスト計算機からSVOLへのリードコマンドに対する処理のシーケンスを示している。 ホスト計算機からのリードコマンドに対応するMDKC10M及びRDKC1Rの処理のフローチャートを示している。 HAボリュームペアのペア状態と、PVOL及びSVOLへのI/Oアクセスにおける排他種別との関係を示している。 承継MPPKが、SVOLへのライトコマンドを送信する処理のフローチャートである。 ライトデータと共に排他ロック解除コマンドを送信するシーケンスを示している。 RDKC10RによるJOB排他ロックを含む、ホスト計算機からPVOLへのライト処理のシーケンスを示している。 RDKCによるJOB排他ロックを含む、ホスト計算機からSVOLへのライト処理のシーケンスを示している。 図25及び図26のシーケンスに対応する、ホスト計算機からのライトコマンドに対するMDKC及びRDKCの処理のフローチャートを示している。 図25及び図26のシーケンスに対応する、MDKC、RDKC間のライトコマンドに対するMDKC及びRDKCの処理のフローチャートを示している。
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。
図1A及び図1Bは本実施形態の概要を示す図である。図1A及び図1Bに開示される構成は、ホスト計算機180A、ホスト計算機180B、ストレージ装置10A及びストレージ装置10Bからなり、ストレージ装置10A及びストレージ装置10Bがホスト計算機180A及びホスト計算機180Bに対して仮想ストレージ装置15を提供している。
ストレージ装置10Aのボリュームであるボリューム161A及び、ストレージ装置10Bのボリュームであるボリューム161Bは同一のデータが格納され、ホストに対して同じIDを示し、仮想ストレージ装置15の一つの仮想ボリューム151として提供されている。なお、以下において「仮想」と明示されない構成要素は、特に言及のない場合、実構成要素である。
ホスト計算機180A及び180Bはひとつの仮想ボリューム151にリード/ライト指示を送信するが、実際にはボリューム161A及びボリューム161Bいずれにも前記指示が送られる可能性がある。このようなボリューム161Aとボリューム161BのペアをActive−Active型のるHigh Availability(HA)ボリュームペアやHAペアと呼び、図1A及び図1BのようにHAペア含む構成をHA構成と呼ぶ。
以下の説明において、HA構成及びHAペアは、Active−Active型のHA構成及びHAペアを意味する。HAペアは、Primary Volume(PVOL)とSecondary Volume(SVOL)とで構成され、ここではボリューム161AをPVOL、ボリューム161BをSVOLとする。また、PVOLを提供するストレージ装置10AをMDKC(Main DisK Contoller)と呼び、SVOLを提供するストレージ装置10BをRDKC(Remote DisK Contoller)と呼ぶ。
なお、一つのストレージ装置が、異なるHAボリュームペアのPVOLとSVOLとを含むこともできる。つまり、1台のストレージ装置は、各HAボリュームペアにおけるボリューム種別に応じて、MDKC及びRDKCとして機能する。以下図1A及び図2Bを用いて、ホストからPVOL及びSVOLにライト指示及びリード指示が発行された際の処理の概要について説明する。なお、ボリュームへのデータの書き込み及び読み出しとは、キャッシュ又は記憶ドライブへの書き込み及び読み出しである。
図1Aはホスト計算機180AからPVOLであるボリューム161Aにライト指示が入った場合の処理の流れの概要である。
I.ホスト計算機180Aからのライト指示に伴うデータ転送を受けたストレージ装置10Aが受信する。II.ストレージ装置10Aはボリューム161Aのライト先アドレスの排他を取得し、ボリューム161Aにライトする。III.ストレージ装置10AはSVOLであるボリューム161Bにデータを格納させるために、ストレージ装置10Bにライト命令及びデータを転送する。
IV.ライト命令及びデータを受信したストレージ装置10Bはボリューム161Bにデータを格納する。V.ストレージ装置10Bは、ライトの完了報告をストレージ装置10Aに送信する。VI.ストレージ装置10AはIIで取得した排他を解除する。VII.ストレージ装置10Aはホスト計算機180Aに対してライト完了報告を送信する。
このように、PVOLにライト指示を受領した場合には、MDKCはライト先アドレス範囲を排他し、PVOLに書き込みした後、SVOLに書き込みさせ、SVOLへの書き込み完了後に排他を解除しホストに応答をする。詳細は後述するが、SVOL側にライト指示を受領した場合でも、MDKC側で排他を取得し、PLOLを先に書き込みした後、SVOLに書き込みし、その後MDKC側で排他を解除するという順序で、ライト処理が実行される。ライト処理におけるJOB排他制御は、当該領域に対する他のライト処理及びリード処理を禁止する。これにより、PVOLとSVOLの同一性を適切に維持する。
図1Bはホスト計算機180A及び180BからPVOLであるボリューム161A及びSVOLであるボリューム161Bにリード要求を発行した場合の処理の流れの概要である。ボリューム161Bへのリード要求を受領したストレージ装置10BはIO要求を受領した場合、ボリューム161Bからデータをリードし、ホスト計算機180Bにデータを返す。この時にストレージ装置10Aに対して通信を行う必要はない。
ボリューム161Aへのリード要求を受領したストレージ装置10Aは、図1Aでリード要求のあったデータの格納領域に対し、図1Aで説明したライト先アドレス排他が取得されていないか確認し、ライト先アドレス排他がない場合には、ボリューム161Aからデータをリードし、ホスト計算機180Aにデータを返す。
ライト先アドレス排他がされている場合に、ストレージ装置10Aは一定時間Waitし、再度ライト先アドレス排他が取得されているか確認する。PVOLであるボリューム161Aにリードがあった場合にも、ストレージ装置10Aとストレージ装置10B間の通信を行う必要はない。
なお、リード処理におけるJOB排他制御の詳細については後述するが、リード処理におけるJOB排他制御は、当該領域に対する他のライト処理は禁止し、他のリード処理を禁止しても禁止しなくともよい。リード処理を許可することで、他のコマンドの処理の遅延を低減できる。
近年、地震などの災害への対策としてディザスタリカバリの重要性は高まっている。HA機能は、ストレージシステムの高可用性を実現する。HA構成は、二重化された系を有し、障害発生時には自動的に故障した系を切り離し、正常な系のみを用いて動作を継続することができる。さらに、ディザスタリカバリやリソースの有効利用の観点等から、ストレージ装置の二重化によるActive−Active型HA構成に対する要求が強くなってきている。
Active−Active型HA構成は、全ての系を稼動系として運用する。Active−Active型HA構成において、情報システムは、ホストからのボリュームペアのいずれへのI/Oアクセスも受け付けることができ、パスの帯域、ストレージコントローラ処理能力、ドライブの処理能力などのリソースを有効活用する事が出来る。
ボリュームペアのいずれへのI/Oアクセスも受け付けるには、PVOLとSVOLのいずれにアクセスされたとしても、新しいデータを読み出された後に、古いデータが読みだされる事を防ぐ必要がある。この順序が逆になってしまうまき戻りが起こることによりホストの誤作動が生じる可能性があるためである。
そこで本実施例では、一例としてPVOLへのI/Oアクセスは、PVOLにおけるJOB排他制御を伴い、SVOLへのI/OアクセスにおいてJOB排他制御は使用されない。PVOLにおけるJOB排他制御により、ホストからのコマンドに対するPVOLとSVOLの同一性を適切に維持でき、さらにSVOLの排他制御を省略することで、処理を効率化できる。
また、本実施例はディザスタリカバリの観点から二重化したストレージは異なるサイトに置かれ、このサイト間は100km程度を想定している。このためサイト間の通信で1ms程度遅延する。このため、ライト及びリードコマンドへの応答の際にIO同期でのサイト間通信を減らす必要がある。本実施例では、ホストからのリード処理において、MDCK及びRDKCは、それぞれストレージ装置間の通なしで、PVOL及びSVOLから読み出したデータをホストに返す。ストレージ装置の通信が不要であり、ホストからのリードコマンドの処理の遅延を防ぐことができる。
さらに、前述の様にデータの増大によりシステムの大規模化が進んでおり、システム構築コスト及びシステム管理コストの低減の観点からも少ない装置点数での機能実現が求められている。本実施例では特別な装置であるアプライアンス等を用いる必要なく、Active−Active型HA構成を実現している。
図2は、本実施形態における情報システムを含む計算機システムの構成例を示している。図2の計算機システムは、ホスト計算機180A、180B、ストレージ装置10A〜10C、及び、管理計算機20を含む。ストレージ装置10A〜10Cが情報システムに含まれ、ホスト計算機180A、180Bは情報システムにアクセスし、管理計算機20は情報システムを管理する。
計算機システムに含まれる各種装置(システム)の数は、設計に依存する。ストレージ装置10A、10Bは、Active−Active型HAストレージペアを構成し、さらに、仮想ストレージ装置を提供する。ストレージ装置10A、10B、それぞれ、ホスト計算機180A、180Bに対して、同一の仮想ストレージ装置として振舞う。以下に説明する例においては、ストレージ装置10A、10Bは、1台の仮想ストレージ装置を構成する。
ストレージ装置10Cは、Quorum Diskを持つ。Quorum Diskは、HA構成におけるストレージ装置10A、10B間で通信不可となった場合に、HA構成のストレージ装置10A、10Bのうち、継続稼動させるものと停止させるものを決定する機能を提供する。
具体的にはストレージ装置10A、10Bはそれぞれストレージ装置の状態や、それぞれのストレージ装置から見た他方のストレージ装置への通信状態をQuorum Diskに書き込む。互いのストレージ装置は、Quorum Diskを定期的又はIO応答に同期して参照し、Quorum Diskに書き込まれた情報に基づいて継続稼動させるものと停止させるものを決定する。
ホスト計算機180A、180B、管理計算機20及びストレージ装置10A〜10Cは、LAN195で構成された管理ネットワークにより、通信可能に接続されている。例えば、管理ネットワーク195は、IPネットワークである。管理ネットワーク195は、管理データ通信用のネットワークであればどのタイプのネットワークでもよい。
ホスト計算機180A、180B、及びストレージ装置10A〜10Cは、SAN(Storage Area Network)190で構成されたデータネットワークにより接続されている。ホスト計算機180A、180Bは、SAN190を介して、ストレージ装置10A、10Bのボリュームにアクセスする。ストレージ装置10A〜10Cは、SAN190を介して、互いに通信する。
データネットワーク190はデータ通信用のネットワークであれば、どのようなタイプのネットワークでもよい。データネットワーク190と管理ネットワーク195は同一のネットワークでもよい。
図3は、ホスト計算機180及びストレージ装置10のハードウェア構成例を模式的に示している。ホスト計算機180及びストレージ装置10は、それぞれ、計算機システム内の任意のホスト計算機及びストレージ装置を示している。
ホスト計算機180は、二次記憶デバイス181、プロセッサであるCPU182、主記憶装置であるメモリ183、入力デバイス184、出力装置である表示デバイス185、I/F186、及びポート187を備える。これらは、内部ネットワークによって相互に接続される。管理計算機20も同様のハードウェア構成を有することができる。
CPU182は、メモリ183に格納されるプログラムを実行することによって、各種処理を行う。例えば、メモリ183は、OS、交替パスプログラム及びアプリケーションプログラムを保持する。アプリケーションプログラムは、ストレージ装置10が提供するボリュームへデータの読み書きを行う。交替パスプログラムは、仮想ボリュームに割当てられているパスから、アクセス先の実ボリュームに対するパスを選択する。
ポート187は、SAN190に接続するネットワークインタフェースである。ポート187は、SAN190を介してストレージ装置10とデータ及び要求を送受信する。インタフェース186は、LAN195に接続するネットワークインタフェースである。インタフェース186は、LAN195を介して管理計算機20及び物理ストレージ装置10と管理データ及び制御命令を送受信する。
ストレージ装置10は、複数の記憶ドライブ170を収容している。記憶ドライブ170は、例えば、不揮発性の磁気ディスクを有するHDD、不揮発半導体メモリ(例えばフラッシュメモリ)を搭載したSSDである。この記憶ドライブ170に基づきボリューム161などが構成される。
記憶ドライブ170は、ホスト又は他のストレージ装置から送られたデータ(ユーザデータ)を格納する。複数の記憶ドライブ170がRAID演算によるデータの冗長化を行うことで、1つの記憶ドライブ170に障害が発生した場合のデータ消失を防ぐことができる。
ストレージ装置10は、SAN190を介して外部装置と接続するためのフロントエンドパッケージ(FEPK)100を含む。本例の計算機システムにおいて、外部装置は、ホスト又はストレージ装置である。
ストレージ装置10は、さらに、記憶ドライブ170と接続するためのバックエンドパッケージ(BEPK)140、キャッシュメモリを搭載するキャッシュメモリパッケージ(CMPK)130、内部処理を行うマイクロプロセッサを搭載するマイクロプロセッサパッケージ(MPPK)120、及びそれらを接続する内部ネットワーク150を有する。
本例のストレージ装置10は、複数のFEPK100、複数のBEPK140、複数のCMPK130、そして複数のMPPK120を含む。ストレージ装置10は、さらに、管理計算機20との通信におけるインタフェースとして機能する管理プロセッサを含んでもよい。
各FEPK100は、外部装置との接続を行うためのインタフェース101、ストレージ装置10内のデータ転送を行うための転送回路112を基板上に有する。インタフェース101は複数のポートを含むことができ、各ポートが外部装置と接続することができる。インタフェース101は、外部装置とストレージ装置10との間のデータ通信に用いられるプロトコル、例えばFibre Channel Over Ethernet(FCoE)を、内部ネットワーク150で用いられるプロトコル、例えばPCI−Expressに変換する。また、バッファ113を備える。バッファはホスト計算機180aから受信したデータ一時的に格納する領域であり、DRAMなどの記憶媒体で構成される。
各BEPK140は、ドライブ170と接続するためにインタフェース141、ストレージ装置10内のデータ転送を行うための転送回路142を基板上に有する。インタフェース141は、記憶ドライブ170との通信に用いられるプロトコル、例えばFCを、内部ネットワーク150で用いられるプロトコルに変換する。
各CMPK130は、ユーザデータを一時的に格納するキャッシュメモリ(CM)131及び1又は複数のMPPK120が扱う制御情報を格納する共有メモリ(SM)132を基板上に有する。
異なるボリュームを担当する複数のMPPK120(のマイクロプロセッサ)が、共有メモリ132にアクセスすることができる。MPPK120が扱うデータやプログラムは、ストレージ装置10内の不揮発性メモリ(不図示)又は記憶ドライブ170からロードされる。
各MPPK120は、1以上のマイクロプロセッサ121、ローカルメモリ(LM)122及びそれらを接続するバス123を有する。本例のMPPK120には、複数のマイクロプロセッサ121が実装されている。マイクロプロセッサ121の数は1つでもよい。ローカルメモリ122は、マイクロプロセッサ121が実行するプログラム及びマイクロプロセッサ121が使用する制御情報を格納する。
上述のように、一つの共有メモリ132は、複数のMPPK120が扱う制御情報を格納する。MPPK120は、共有メモリ132から、自身が必要とする制御情報を自身のローカルメモリ122にロードする。
本構成例において、MPPK120(のマイクロプロセッサ121)には、ストレージ装置10がホスト計算機180A、180Bに提供するボリュームの担当が割り当てられる。MPPK120に割り当てられているローカルメモリ122及び共有メモリ132が、当該MPPK120がI/Oを担当するボリュームの制御情報を格納する。
図4は、ストレージ装置10A、10Bがホスト計算機180に提供する仮想構成例を示している。ストレージ装置10A、10Bは、それぞれ、ターゲットポート102A、102Bを有する。ターゲットポート102Aに対して、ボリューム161A、162A、163が割当てられている。ターゲットポート102Bに対して、ボリューム161B、162B、164が割当てられている。
なお、ボリュームは、ボリューム容量と実際の容量が一致するいわゆるLDEVでも、プールからページを割り当てるシンプロビジョニングボリュームでもよい。また、全てのボリュームは図示しない他のストレージ装置の備える記憶媒体に基づいて構成されてもよい。この場合、当該ボリュームにホスト計算機からアクセスがされた場合には、アクセスをされたストレージ装置は、記憶媒体を備える他のストレージと通信を行い、ホスト計算機に応答を行う。
ストレージ装置10A、10Bは、仮想ストレージ装置15をホスト計算機180に提供する。ホスト計算機180は、仮想ストレージ装置15の製造番号(S/N)は、XXXである。一方、ストレージ装置10A、10B、それぞれ、製造番号AAA、製造番号BBBを有している。ホスト計算機180は、仮想ストレージ装置15を、ターゲットポート102A、102Bを含む、製造番号XXXのストレージ装置と認識する。製造番号は、ストレージ装置及び仮想ストレージ装置の識別子である。
ボリューム161A、161Bは、HAボリュームペアを構成し、一つの仮想ボリューム151を構成する。ボリューム161A、161BのIDは、それぞれ、10:00、30:00である。一方、仮想ボリューム151のIDは、20:00である。
ボリューム162A、162Bは、HAボリュームペアを構成し、一つの仮想ボリューム152を構成する。ボリューム162A、162BのIDは、それぞれ、10:01、30:01である。一方、仮想ボリューム152のIDは、20:01である。
ボリューム163、164は、それぞれ、仮想ボリューム153、154を構成する。ボリューム163、164のIDは、それぞれ、10:02、30:02である。一方、仮想ボリューム153、154のIDは、それぞれ、20:02、20:03である。
ホスト計算機180は、仮想ボリューム151〜154を、仮想ストレージ装置15が提供し、IDが20:00〜20:03のボリュームと認識する。ホスト計算機180は、ターゲットポート102A、102Bのいずれを介しても、仮想ボリューム151、152にアクセスすることができる。ホスト計算機180は、ターゲットポート102Aのみを介して仮想ボリューム153にアクセスし、ターゲットポート102Bのみを介して仮想ボリューム154にアクセスする。
図5は、ストレージ装置10のCMPK130の共有メモリ132内に格納されている情報を示している。共有メモリ132は、VOLマッピング情報管理テーブル210、HAボリュームペア管理テーブル220、LUパス管理テーブル230、VOL管理テーブル240、PG管理テーブル250、及び、キャッシュスロット管理テーブル270を格納している。共有メモリ132は、複数のMPPK120からアクセスされ得る。
図6は、ストレージ装置10のMPPK120のローカルメモリ122内に格納されている情報を示している。ローカルメモリ122は、JOB管理テーブル260を格納している。
以下において、上記テーブルの構成例を説明する。以下の説明で参照される図面は、ストレージ装置10Aのテーブルを例示している。図7は、VOLマッピング情報管理テーブル210の構成例を示している。VOLマッピング情報管理テーブル210は、ストレージ装置10が有するボリュームの実構成情報と仮想構成情報とを関連付ける。具体的には、VOLマッピング情報管理テーブル210は、ボリュームIDのカラム211、仮想ボリュームIDのカラム212、仮想ストレージ装置の製品番号(識別子)のカラム213、HAフラグのカラム214を有する。
各エントリは、ボリュームが対応付けられている仮想ボリュームのID、当該仮想ボリュームを提供する仮想ストレージ装置のID、及び、当該ボリュームがHAボリュームペアを構成するか否かを示している。HAフラグのカラムの値がONのとき、当該ボリュームは、他のボリュームとHAボリュームペアを構成する。
図8は、HAボリュームペア管理テーブル220の構成例を示している。HAボリュームペア管理テーブル220は、HAボリュームペアの管理情報を保持している。具体的には、HAボリュームペア管理テーブル220は、HAボリュームペアのIDのカラム221、HAボリュームペアの状態を示しているカラム222、HAボリュームペアのPVOLのIDのカラム223、PVOLを提供するMDKCの識別子を格納するカラム224を有する。
HAボリュームペア管理テーブル220は、さらに、HAボリュームペアのSVOLのIDのカラム225、SVOLを提供するRDKCの識別子を格納するカラム226を有する。各エントリにおいて、PVOL又はSVOLが、当該ストレージ装置10が提供するボリュームである。
ペア状態の例は、COPY状態、PAIR状態、SUSPEND状態等である。COPY状態は、HAボリュームペアの一方のボリュームから他方のボリュームにデータコピーをしている状態である。PAIR状態は、HAボリュームペアの二つのボリュームが同期している状態である。SUSPEND状態は、HAボリュームペアの二つのボリュームが非同期の状態である。
図9は、LUパス管理テーブル230の構成例を示している。LUパス管理テーブル230は、LUNに関連付けられているポート及びボリュームを管理する。具体的には、LUパス管理テーブル230は、ポートIDのカラム231、LUNのカラム232、ボリュームIDのカラム233を有する。
図10は、VOL管理テーブル240の構成例を示している。VOL管理テーブル240は、ボリュームの特性情報を保持している。具体的には、VOL管理テーブル240は、ボリュームIDのカラム241、ボリュームのサイズを示しているカラム242、ボリュームへ物理記憶領域を提供するパリティグループ(PG)のカラム243を有する。パリティグループは、RAIDグループとも呼ばれる。
図11は、PG管理テーブル250の構成例を示している。PG管理テーブル250は、パリティグループの特性を管理する。具体的には、PG管理テーブル250は、パリティグループのIDのカラム251、パリティグループのタイプを示しているカラム252、パリティグループのサイズを示しているカラム253、パリティグループのRAIDレベルを示しているカラム254を有する。
図12は、キャッシュスロット管理テーブル270の構成例を示している。キャッシュスロット管理テーブル270は、キャッシュされているデータを管理する。具体的には、キャッシュスロット管理テーブル270は、キャッシュの管理単位であるキャッシュスロット(単にスロットとも呼ぶ)に関する情報を保持している。スロットのサイズは、共通であり、スロット番号から当該スロットのキャッシュ内アドレスが特定できる。
ストッロ番号カラム271は、スロットの番号を格納している。PG IDカラム272及びPG内アドレスカラム273は、スロットに格納されているデータを格納するパリティグループのID及び当該パリティグループ内のアドレスを示している。VOL IDカラム274及びVOL内アドレスカラム275は、スロットに格納されているデータを格納するボリュームの識別子及びボリューム内のアドレスを示している。
スロットステータスカラム276は、スロットの状態を示している。フリー状態は、スロットが開放されていることを示している。なお、ここではフリー状態のスロットも管理しているが他の状態でないスロットはフリーとして管理しなくても良い。ダーティ状態は、スロット内のデータがパリティグループに書き込まれる前であることを示している。スロット内のデータとパリティグループのデータが、不一致である。
クリーン状態は、PVOLとSVOLとの間において異なる。PVOLのクリーン状態は、スロット内のデータがパリティグループに書き込まれ、かつ、SVOLにも書き込まれた後(RDKCからの完了応答後)であることを示している。つまり、スロット内のデータがパリティグループ内のデータに一致する。SVOLのクリーン状態は、スロット内のデータがパリティグループに書き込まれた後であることを示している。
二重書き中状態は、PVOL特有の状態であり、スロット内のデータがSVOLに書き込まれる前(RDKCからの完了応答前)であることを示している。つまり、PVOLのデータがSVOLのデータと一致していないことを示している。
図13は、JOB管理テーブル260の構成例を示している。JOB管理テーブル260は、それを保持しているMPPK120が実行するJOBを管理する。ここでのJOBは、ボリュームへのライト処理又はボリュームからのリード処理である。JOB管理テーブル260は、実行中のJOB及び今後実行すべきJOBの情報を保持している。JOB管理テーブル260の最大エントリ数は決まっている。
JOB番号カラム261は、JOBの識別子を示している。処理種別カラム262は、JOBにおいて実行すべき処理の種別を示している。具体的には、ホスト計算機180からのリードコマンドに対応した処理(HOST READ)、ホスト計算機180からのライトコマンドに対応した処理(HOST WRITE)、他のストレージ装置からのリードコマンドに対応した処理(DKC間READ)、他のストレージ装置からのライトコマンドに対応した処理(DKC間WRITE)である。
HA P/Sカラム263は、JOBの対象ボリュームが、HAボリュームペアのボリュームであるか、さらに、HAボリュームペアのボリュームである場合に、PVOLであるかSVOLであるかを示している。
VOL IDカラム264は、JOBの対象ボリュームのIDを示している。START LBAカラム265及びLBA LENGTHカラム266は、JOBの対象データのボリューム内の開始アドレス及びデータサイズ(アドレス長)を示している。
排他種別カラム267は、JOBが排他ロックを確保しているか、さらに、排他ロックを確保している場合にその排他種別を示している。RD共有は、当該アドレス領域へのライトを禁止し、リードを許可する。R/W排他は、当該アドレス領域へのライト及びリードを禁止する。
JOB番号及びMPPK番号カラム268は、ホスト計算機180からSVOLへのライトコマンドに対応した処理を示しているエントリにおいて、データを格納する。JOB番号及びMPPK番号カラム268は、対応PVOLへのMDKCにおけるライト処理のJOBを特定する情報を格納する。JOBは、JOB番号と当該JOBを実行するMPPKの番号(MPPKの識別子)で特定される。後述するように、JOB特定情報は、RDKCからMDKCへ排他ロック解除コマンドに含まれる。
図14のシーケンス図は、ホスト計算機180に対して、仮想ストレージ装置15及び仮想ボリューム151〜154の情報を提供する方法を示している。ホスト計算機180は、ストレージ装置10にログイン要求を送信し、その応答を受信した後、REPORTLUNコマンドを送信する。REPORT LUNコマンドは、当該ポートにおいてアクセス可能なLUN(Logial Unit Number)のリストを要求する。ストレージ装置10Aは、LUパス管理テーブル230を参照し、アクセス可能なLUNのリストを返す(REPORT LUN応答)。
ホスト計算機180は、INQUIRYコマンドを用いて、ストレージ装置10の製造番号及びLUNが対応するボリュームのIDを問い合わせることができる。ストレージ装置10は、ストレージ装置10は、LUパス管理テーブル230及びVOLマッピング情報管理テーブル210を参照し、対応する仮想構成が定義されているか判定する(S101)。
対応する仮想構成(仮想ストレージ装置又は仮想ボリューム)が定義されている場合(S101:Y)、ストレージ装置10は、当該仮想構成の情報をINQUIRY応答に含めて返す(S102)。仮想構成が定義されていない場合(S101:N)、ストレージ装置10は実構成の情報をINQUIRY応答に含めて返す(S103)。
図4の構成において、例えば、ホスト計算機180が、ストレージ装置10A(S/N:AAA)に対して、製造番号の通知を要求した場合、当該要求を受領したストレージ装置10Aは、仮想ストレージ装置15の製造番号XXXを、ホスト計算機180に応答する。ストレージ装置10Bも、仮想ストレージ装置15の製造番号XXXを、ホスト計算機180に応答する。
仮想ストレージ装置15の製造番号は、HAストレージ装置ペアを構成するストレージ装置10A及び10Bで共通である。HAストレージペアを構成するストレージ装置10A、10Bを、単一の仮想ストレージ装置15としてホスト計算機180に認識させる。
同様に、ホスト計算機180が、INQUIRYコマンドを用いて、ストレージ装置10Aに対して、LUNに対応するボリュームID(VOL ID)の通知を要求した場合、ストレージ装置10Aは、仮想ボリューム151〜153のID(20:00〜20:02)をホスト計算機180に応答する。同様に、ストレージ装置10Bは、仮想ボリューム151、152、154のID(20:00、20:01、20:03)をホスト計算機180に応答する。
このようにして、ホスト計算機180は、仮想ボリューム151〜154を認識し、さらに、仮想ボリューム151、152のそれぞれに対する二つのパス(ポート)及び仮想ボリューム153、154それぞれに対する一つのパス(ポート)を認識する。
HAボリュームペアの作成を説明する。管理者は、ボリュームを使用して、HAボリュームペアを作成する。管理者は、管理計算機20を使用して、HAボリュームペアを作成することを、ストレージ装置10A、10Bに指示している。
HAボリュームペアの一方がPVOLとして定義され、他方がSVOLと定義される。管理者は、管理計算機20を使用してPVOLとSVOLを定義してもよい。後述するように、PVOLとSVOLの間では、ホスト計算機180からアクセスに対する処理が異なる。ストレージ装置10A、10Bは、HAボリュームペアを作成するとHAボリュームペア管理テーブル220に新しいエントリを追加する。
さらに、HAボリュームペアに共通の仮想情報が定義される。ストレージ装置10A、10B又は管理者は、HAボリュームペアに共通の仮想ボリュームIDを定義する。ストレージ装置10A、10Bは、定義された仮想情報を有する新しいエントリを、VOLマッピング情報管理テーブル210に追加する。
HAボリュームペアが定義されると、ストレージ装置10A、10Bは、PVOLからSVOLへの初期データコピーを開始する。初期データコピーが完了すると、二つのボリュームは同一のデータを有し、互いに同期する。つまり、ストレージ装置10A、10Bは、それぞれ、ホスト計算機180からのライトコマンドを受信し、互いの間でライトコマンドとライトデータの通信を行って、PVOLとSVOLの双方を更新し、ボリューム間の同一性を維持する。
後述するように、ストレージ装置10A、10Bは、ホスト計算機180からのリードコマンドに対して、ストレージ装置10A、10B間での通信を行うことなく、自装置のボリュームのデータをホスト計算機180に返す。これにより、処理遅延を避ける。
ストレージ装置10A、10Bの一方において障害が発生し、ホスト計算機180からのI/Oアクセスに応答できない場合、それを検知した障害が発生していない他方のストレージ装置が、ホスト計算機180からの全てのI/Oアクセスを処理する。
一方のボリュームにおいて障害が発生し、ストレージ装置10A、10Bがホスト計算機180と通信できる場合、障害発生したボリュームを保持するストレージ装置は、他方のストレージ装置にホスト計算機180からコマンドを転送する。
例えば、ストレージ装置10Bのボリュームにおいて障害が発生したとする。ストレージ装置10Bは、ホスト計算機180からのライトコマンドをストレージ装置10Aに転送し、ストレージ装置10Aは、自装置のボリュームへのライト処理を実行する。ストレージ装置10Bは、ホスト計算機180にライト完了応答を返す。また、ストレージ装置10Bは、ストレージ装置10Aから受信したリードデータをホスト計算機180に返す。ストレージ装置10Aのボリュームにおいて障害が発生した場合も、ストレージ装置10Aとストレージ装置10Bの対応が逆転するだけで同様である。
このように、本情報システムは、高可用性を示し得る。また、PVOLとSVOLとに対して、障害発生時における異なる役割を定義することができる。例えば、ストレージ装置10A、10B間の通信で障害が発生した場合、情報システムは、ホスト計算機180からのPVOLへのI/Oアクセスを受け付け、SVOLへのI/Oアクセスをブロックする。これにより、仮想ボリュームにおけるデータ同一性が維持される。
ストレージ装置10A、10Bは、他装置の障害やストレージ装置10A、10B間の通信障害を、Quorum Disk及びストレージ装置10A、10B間通信の状態により知ることができる。
図15は、ホスト計算機180からPVOLへのライト処理のシーケンスを示している。ホスト計算機180は、MDKC10Mに対して、仮想ボリューム内の領域へのライトコマンド(WR CMD)を発行する。MDKC10Mは、仮想ボリュームに対応するPVOLにおいて、ライトコマンドにより指定された領域に対する排他ロックを確保する(S201)。
MDKC10Mは、データ受信の準備ができると、データ転送のREADY応答(XFR RD)をホスト計算機180に返し、ホスト計算機180からライトデータ(WR DAT)を受信する。MDKC10Mは、受信したライトデータを、PVOL内のアドレス領域に書き込む(S202)。上述のように、PVOLへ書き込みは、ライトキャッシュ機能がONであればキャッシュメモリ131への書き込みであり、ライトキャッシュ機能がOFFであればパリティグループ(物理記憶領域)への書き込みである。
MDKC10Mは、PVOLとHAボリュームペアを構成するSVOL内の領域へのライトコマンド(WR CMD)をRDKC10Rに送信する。SVOLは、ボリュームID又は別途定義されているLUNにより指定できる。RDKC10Rは、データ転送のREADY応答(XFR RD)をMDKC10Mに返し、MDKC10Mからライトデータ(WR DAT)を受信する。RDKC10Rは、受信したライトデータを、SVOL内のアドレス領域に書き込む(S203)。SVOLへの書き込みは、上記PVOLへの書き込みと同様である。
RDKC10Rは、SVOL内のアドレス領域へのデータの書き込みが完了すると、ライト完了応答(WR RSP)をMDKC10Mに返す。MDKC10Mは、RDKC10Rからライト完了応答受信した後、ホスト計算機180にライト完了応答(WR RSP)を返す。さらに、MDKC10Mは、確保していた排他ロックを解除する(S204)。
図16は、ホスト計算機180からSVOLへのライト処理のシーケンスを示している。ホスト計算機180は、RDKC10Rに対して、仮想ボリューム内の領域へのライトコマンド(WR CMD)を発行する。
RDKC10Rは、データ受信の準備ができると、データ転送のREADY応答(XFR RD)をホスト計算機180に返し、ホスト計算機180からライトデータ(WR DAT)を受信する。RDKC10Rは、SVOLとHAボリュームペアを構成するPVOL内の領域へのライトコマンド(WR CMD)をMDKC10Mに送信する。
MDKC10Mは、ライトコマンドで指定されたボリューム内の領域に対する排他ロックを確保する(S251)。その後、MDKC10Mは、データ転送のREADY応答(XFR RD)をRDKC10Rに返し、RDKC10Rからライトデータ(WR DAT)を受信する。
MDKC10Mは、受信したライトデータを、PVOL内の指定された領域に書き込む(S252)。MDKC10Mは、PVOL内の領域へのデータの書き込みが完了すると、ライト完了応答(WR RSP)をRDKC10Rに返す。
RDKC10Rは、MDKC10Mからライト完了応答受信した後、SVOL内の指定された領域にライトデータを書き込む(S253)。RDKC10Rは、ホスト計算機180に、ライト完了応答(WR RSP)を返す。その後、RDKC10Rは、JOBを指定して、排他ロック解除コマンドをMDKC10Mに送信する。MDKC10Mは、確保していた排他ロックを解除し(S254)、指定されたJOBの排他ロックを解除したことを示している応答をRDKC10Rに返す。
図17は、ホスト計算機180からのライトコマンドに対するMDKC10M及びRDKC10Rの処理のフローチャートを示している。図17において、MDKC10Mは、ステップS301〜S311を実行し、RDKC10Rは、ステップS301、S302、S312〜S319を実行する。以下に説明する例では、ボリュームへの書き込みは、キャッシュメモリ130へのライトデータの書き込みが対応する。
まず、MDKC10Mの処理を説明する。MDKC10Mは、ホスト計算機180からライトコマンドを受信する。ライトコマンドは、LUNを使用して対象ボリュームを指定する。MDKC10Mは、ライトコマンドが指定する仮想ボリュームに対応するボリュームIDを、LUパス管理テーブル230を参照して決定する。
MDKC10Mは、JOB管理テーブル260に、新たなエントリを作成することでJOBを確保する(S301)。具体的には、MPPK120は、そのJOB管理テーブル260においてフリーのJOBを選択し、そのエントリに、処理種別(HOST WRITE)、並びに、ライトコマンドが指定するボリューム及びアドレスの情報を書き込む。排他種別カラム267のセルは未記入である。図13のJOB管理テーブル260において、JOB番号が1のエントリが、ホスト計算機180からPVOLへのライト処理を示している。
MPPK120は、HAボリュームペア管理テーブル220を参照し、指定されたボリュームが、HAボリュームペアのPVOL又はSVOLであるか判定する(S302)。ここでは、指定されたボリュームは、PVOLである。
次に、MPPK120は、新たなJOBの排他ロックを確保する(S303)。具体的には、MPPK120は、JOB管理テーブル260を検索し、指定ボリュームかつ指定領域の排他ロックを確保している他のJOBを検索する。排他ロックが確保されている場合、当該排他ロックの解除を待つ。排他ロックを確保する順序は、例えば、不図示のキューにより制御される。なお、排他制御単位は、本例のようにLBA単位でもよいし、ボリューム単位でもよい。ボリューム内の一部領域のみ排他ロックすることで、他のコマンドの処理への影響を小さくすることができる。
指定ボリュームかつ指定領域の排他ロックが他のJOBによって確保されていない場合、MPPK120は、新規JOBの排他種別カラム267のセルに排他ロックを設定する。処理はPVOLへのライト処理であり、その排他種別は、R/W排他である。
排他ロックを確保すると、MPPK120は、ホスト計算機180に対してデータ転送のREADY応答を返し、ホスト計算機180からのライトデータを待つ(S304)。MPPK120は、ライトデータのためのキャッシュスロットを確保する(S305)。具体的には、MPPK120は、キャッシュスロット管理テーブル270において、フリーのスロットに、新たなデータを設定する。MPPK120は、VOL管理テーブル240を参照して、指定ボリュームに対応するパリティグループを特定できる。
MPPK120は、FEPK100を使用して受信したライトデータを確保したキャッシュスロットに書き込む(S306)。MPPK120は、キャッシュスロット管理テーブル270において、当該キャッシュスロットのスロットステータスを、二重書き中に設定する。
MPPK120は、RDKC10Rに対して、PVOLに対応するSVOLへのライトコマンドを発行し、データ転送のREADY応答を待つ(S307)。MPPK120は、HAボリュームペア管理テーブル220から、SVOL及びSVOLを保有するRDKC10RのIDを取得する。MPPK120は、当該RDKC10Rに対して、当該SVOLへのライト処理を指示している。SVOLはボリュームID又は別途定義されているLUNにより指定され得る。
READY応答を受信すると、MPPK120は、FEPK100を使用してRDKC10Rにホスト計算機180から受信したライトデータを転送し、ライト完了の応答を待つ(S308)。
RDKC10Rからライト完了応答を受信すると、MPPK120は、ホスト計算機180にライト完了応答を送信する(S309)。さらに、MPPK120は、キャッシュスロット管理テーブル270において、当該キャッシュスロットのスロットステータスを、ダーティに変更する(S310)。例えば、MPPK120は、JOB管理テーブル260から当該JOBの対象ボリューム及び領域を取得し、それによりキャッシュスロット管理テーブル270において対応キャッシュスロットを特定できる。
MPPK120は、JOB管理テーブル260を更新して、当該JOBの排他ロックを解除する(S311)。例えば、MPPK120は、JOB管理テーブル260において当該JOBを開放することで、排他ロックを解除する。
次に、RDKC10Rの処理を説明する。RDKC10RによるステップS301、S402は、MDKC10MによるS401、S402と実質的に同様である。ただし、ホスト計算機180からのライトコマンドにより指定されたボリュームはSVOLである。図13において、JOB番号が5のエントリが、ホスト計算機180からSVOLへのライト処理を示している。
指定されたボリュームを担当するMPPK120は、ホスト計算機180に対してデータ転送のREADY応答を返し、ホスト計算機180からのライトデータを待つ(S312)。
FEPK100は、ホスト計算機180から受信したライトデータをバッファ113に保持する。MPPK120は、MDKC10Mに対して、SVOLに対応するPVOLへのライトコマンドを発行し、データ転送のREADY応答を待つ(S313)。MPPK120は、HAボリュームペア管理テーブル220から、PVOL及びPVOLを保有するMDKC10MのIDを取得する。MPPK120は、当該MDKC10Mに対して、当該PVOLへのライト処理を指示している。PVOLはボリュームID又は別途定義されているLUNにより指定され得る。
READY応答を受信すると、MPPK120は、FEPK100を使用してMDKC10Mにホスト計算機180から受信したライトデータを転送し、ライト完了の応答を待つ(S314)。
MPPK120は、MDKC10Mから受信したライト完了応答を解析し、JOB特定情報を取得する(S315)。ライト完了応答は、当該ライト処理のJOBを特定する情報を含む。JOB特定情報は、当該JOBの番号、及び、MDKC120において当該JOBを担当しているMPPKの番号を含む。MPPK120は、JOB管理テーブル260において、当該エントリのカラム268にJOB特定情報を格納する。
MPPK120は、ライトデータのためのキャッシュスロットを確保する(S316)。具体的には、MPPK120は、キャッシュスロット管理テーブル270において、フリーのスロットに、新たなデータを設定する。MPPK120は、VOL管理テーブル240を参照して、指定ボリュームに対応するパリティグループを特定できる。
MPPK120は、バッファ113に格納されたライトデータを確保したキャッシュスロットに書き込む(S317)。MPPK120は、キャッシュスロット管理テーブル270において、当該キャッシュスロットのスロットステータスを、ダーティに設定する。
キャッシュライトの後、MPPK120は、ホスト計算機180にライト完了応答を送信する(S318)。さらに、MPPK120は、JOB管理テーブル260からJOB特定情報を取得し、当該JOB特定情報を含む排他ロック解除コマンドを生成する。MPPK120は、生成した排他ロック解除コマンドをMDKC10Mに送信し、MDKC10Mからの応答を待つ(S319)。
図18は、MDKC10MとRDKC10Rとの間のライトコマンドに対する、MDKC10MとRDKC10Rの処理のフローチャートを示している。図18において、MDKC10Mは、ステップS351〜S361を実行し、RDKC10Rは、ステップS351、S352、S362〜S365を実行する。
まず、MDKC10Mの処理を説明する。MDKC10Mは、RDKC10Rからライトコマンドを受信する。ライトコマンドは、ボリュームID又は別途定義されたLUNにより対象ボリュームを指定する。MDKC10Mは、JOB管理テーブル260に、新たなエントリを作成することでJOBを確保する(S351)。
具体的には、指定されたボリュームを担当するMPPK120は、そのJOB管理テーブル260においてフリーのJOBを選択し、そのエントリに、処理種別(DKC間WRITE)、並びに、ライトコマンドが指定するボリューム及びアドレスの情報を書き込む。排他種別カラム267のセルは未記入である。図13において、JOB番号が3のエントリが、RDKC10RからPVOLへのライトコマンドの処理を示している。
MPPK120は、HAボリュームペア管理テーブル220を参照し、指定されたボリュームが、HAボリュームペアのPVOL又はSVOLであるか判定する(S352)。ここでは、指定されたボリュームは、PVOLである。
次に、MPPK120は、新たなJOBの排他ロックを確保する(S353)。具体的には、MPPK120は、JOB管理テーブル260を検索し、指定ボリュームかつ指定領域の排他ロックを確保している他のJOBを検索する。排他ロックが確保されている場合、当該排他ロックの解除を待つ。排他ロックを確保する順序は、例えば、不図示のキューにより制御される。
指定ボリュームかつ指定領域の排他ロックが他のJOBによって確保されていない場合、MPPK120は、新規JOBの排他種別カラム267のセルに排他ロックを設定する。処理はPVOLへのライト処理であり、その排他種別は、R/W排他である。
排他ロックを確保すると、MPPK120は、RDKC10Rに対してデータ転送のREADY応答を返し、RDKC10Rからのライトデータを待つ(S354)。MPPK120は、ライトデータのためのキャッシュスロットを確保する(S355)。具体的には、MPPK120は、キャッシュスロット管理テーブル270において、フリーのスロットに、新たなデータを設定する。MPPK120は、VOL管理テーブル240を参照して、指定ボリュームに対応するパリティグループを特定できる。
MPPK120は、FEPK100を使用して受信したライトデータを確保したキャッシュスロットに書き込む(S356)。MPPK120は、キャッシュスロット管理テーブル270において、当該キャッシュスロットのスロットステータスを、二重化書き中に設定する。
ライトデータをキャッシュメモリ130も書き込んだ後、MPPK120は、RDKC10Rに書きライト完了の応答を返し、排他ロック解除コマンドを待つ(S357)。ライト完了応答は、当該ライト処理のJOB特定情報を含む。JOBは、JOB番号と当該JOBを担当するMPPKの番号で特定され得る。MPPK120は、JOB管理テーブル260から取得したJOB番号と自装置のMPPK番号とを、ライト完了応答に含める。
MPPK120は、排他ロック解除コマンドをRDKC10Rから受信すると、当該排他ロック解除コマンドからJOB特定情報を取得する(S358)。MPPK120は、キャッシュスロット管理テーブル270において、指定されたJOBのキャッシュスロットのスロット状態を、ダーティに変更する(S359)。例えば、MPPK120は、JOB管理テーブル260から当該JOBの対象ボリューム及び領域を取得し、それによりキャッシュスロット管理テーブル270において対応キャッシュスロットを特定できる。
MPPK120は、さらに、JOB特定情報が示しているJOBの排他ロックを解除する(S360)。例えば、MPPK120は、JOB管理テーブル260において当該JOBを開放することで、排他ロックを解除する。その後、MPPK120は、RDKC10Rに、排他ロック解除の応答を返す(S361)。
次に、RDKC10Rの処理を説明する。RDKC10Rは、MDKC10Mからライトコマンドを受信する。ライトコマンドは、ボリュームID又は別途定義されたLUNにより対象ボリュームを指定する。RDKC10Rは、JOB管理テーブル260に、新たなエントリを作成することでJOBを確保する(S351)。具体的な方法は、MDKC10Mによる方法と同様である。
MPPK120は、HAボリュームペア管理テーブル220を参照し、指定されたボリュームが、HAボリュームペアのPVOL又はSVOLであるか判定する(S352)。ここでは、指定されたボリュームは、SVOLである。
MPPK120は、MDKC10Mに対して、データ転送のREADYを返し、データ転送を待つ(S362)。MPPK120は、ライトデータのためのキャッシュスロットを確保する(S363)。具体的には、MPPK120は、キャッシュスロット管理テーブル270において、フリーのスロットに、新たなデータを設定する。MPPK120は、VOL管理テーブル240を参照して、指定ボリュームに対応するパリティグループを特定できる。
MPPK120は、FEPK100を使用してライトデータを確保したキャッシュスロットに書き込む(S364)。MPPK120は、キャッシュスロット管理テーブル270において、当該キャッシュスロットのスロットステータスを、ダーティに設定する。キャッシュライトの後、MPPK120は、MDKC10Mにライト完了応答を送信する(S365)。
図19は、ホスト計算機180からPVOLへのリードコマンドに対する処理のシーケンスを示している。ホスト計算機180は、MDKC10Mに対して、仮想ボリューム内の領域へのリードコマンド(RD CMD)を発行する。MDKC10Mは、仮想ボリュームに対応するPVOLにおいて、リードコマンドにより指定された領域に対する排他ロックを確保する(S401)。MDKC10Mは、PVOLの指定アドレス領域のデータを読み出す(S402)。MDKC10Mは、排他ロックを解除し(S403)、ホスト計算機180にリードデータを含むリード完了応答(RD RSP)を返す。
図20は、ホスト計算機180からSVOLへのリードコマンドに対する処理のシーケンスを示している。ホスト計算機180は、RDKC10Rに対して、仮想ボリューム内の領域へのリードコマンド(RD CMD)を発行する。RDKC10Rは、仮想ボリュームに対応するSVOLの指定アドレス領域のデータを読み出す(S451)。RDKC10Rは、ホスト計算機180にリードデータを含むリード完了応答(RD RSP)を返す。
図21は、ホスト計算機180からのリードコマンドに対応するMDKC10M及びRDKC1Rの処理のフローチャートを示している。図21において、MDKC10Mは、ステップS501〜S508を実行し、RDKC10Rは、ステップS501、S502、S509〜S511を実行する。
まず、MDKC10Mのリード処理を説明する。MDKC10Mは、ホスト計算機180からリードコマンドを受信する。リードコマンドは、LUNを使用して対象ボリュームを指定する。MDKC10Mは、リードコマンドが指定する仮想ボリュームに対応するボリュームIDを、LUパス管理テーブル230を参照して決定する。
MDKC10Mは、JOB管理テーブル260に、新たなエントリを作成することでJOBを確保する(S501)。具体的には、指定されたボリュームを担当するMPPK120は、そのJOB管理テーブル260においてフリーのJOBを選択し、そのエントリに、処理種別(HOST READ)、並びに、リードコマンドが指定するボリューム及びアドレスの情報を書き込む。排他種別カラム267のセルは未記入である。図13において、JOB番号が0のエントリが、ホスト計算機180からのコマンドによるPVOLからリード処理を示している。
MPPK120は、HAボリュームペア管理テーブル220を参照し、指定されたボリュームが、HAボリュームペアのPVOL又はSVOLであるか判定する(S502)。ここでは、指定されたボリュームは、PVOLである。
次に、MPPK120は、キャッシュスロット管理テーブル270を参照して、リードコマンドが指定する記憶領域のデータが、キャッシュされているか判定する(S503)。リードデータがキャッシュされている場合(S503:Y)、MPPK120は、当該JOBの排他ロックを確認する(S512)。
具体的には、MPPK120は、JOB管理テーブル260を検索し、指定ボリュームかつ指定領域のR/W排他ロックを確保している他のJOBを検索する。R/W排他ロックが確保されている場合、当該R/W排他ロックの解除を待つ。指定ボリュームかつ指定領域のR/W排他ロックが他のJOBによって確保されていない場合、キャッシュされているリードデータをホスト計算機180に送信する(S508)。
リードデータがキャッシュされていない場合(S503:N)、MPPK120は、当該JOBの排他ロックを確保する(S503)。具体的には、MPPK120は、JOB管理テーブル260を検索し、指定ボリュームかつ指定領域のR/W排他ロックを確保している他のJOBを検索する。R/W排他ロックが確保されている場合、当該R/W排他ロックの解除を待つ。
指定ボリュームかつ指定領域のR/W排他ロックが他のJOBによって確保されていない場合、MPPK120は、新規JOBの排他種別カラム267のセルに排他ロックを設定する。処理はリード処理であり、その排他種別は、RD共有である。
排他ロックを確保すると、MPPK120は、リードデータのためのキャッシュスロットを確保する(S505)。具体的には、MPPK120は、キャッシュスロット管理テーブル270において、フリーのスロットに、新たなデータを設定する。MPPK120は、VOL管理テーブル240を参照して、指定ボリュームに対応するパリティグループを特定できる。
MPPK120は、パリティグループから読み出したライトデータを、確保したキャッシュスロットに書き込む(S506)。MPPK120は、キャッシュスロット管理テーブル270において、当該キャッシュスロットのスロットステータスを、クリーンに設定する。MPPK120は、JOB管理テーブル260を更新して、当該JOBの排他ロックを解除する(S507)。その後、MPPK120は、ホスト計算機180に、リードデータを含むリード完了応答を送信する(S508)。
次に、RDKC10Rのリード処理を説明する。JOBの排他ロックを実行しない点を除き、RDKC10Rの処理はMDKC10Mの処理と同様である。ステップS509〜S511は、それぞれ、ステップS503、S505、S506に対応する。RDKC10Rは、SVOLのリードデータをホスト計算機180に送信する。
上記例において、HAボリュームペアは、PAIR状態であって、同期している。図22は、HAボリュームペアのペア状態と、PVOL及びSVOLへのI/Oアクセスにおける排他種別との関係を示している。ペア状態として、PAIR状態とPSUS(Pair SUSpend)状態とが示されている。PAIR状態において、PVOLとSVOLは同期しており、一方の更新は他方に反映される。
PAIR状態において、上述のように、PVOLに対しては、ホスト計算機180からのライトアクセス及びリードアクセス、並びに、RDKC10Rからのライトアクセスが存在する。これらのアクセスに対しては、RD共有及びR/W排他の排他ロックが実行される。同様に、SVOLに対しては、ホスト計算機180からのライトアクセス及びリードアクセス、並びに、MDKC10Mからのライトアクセスが存在する。SVOLへのアクセスに対しては、排他ロックは実行されない。
PSUS状態において、SVOLの更新は禁止されており、PVOLとSVOLとは同期していない。MDKC10Mは、ホスト計算機180からのアクセスを処理する。MDKC10Mは、PVOLに対して、ホスト計算機180からのライトアクセス及びリードアクセスを受け付ける。
MDKC10Mは、ホスト計算機180からのライトコマンドの処理において、RDKC10Rにライトコマンドを送信しない。MDKC10Mは、ホスト計算機180からのライトアクセス及びリードアクセスに対しては、それぞれ、R/W排他及びRD共有の排他ロックを実行する。
一方、PSUS状態において、RDKC10Rは、ホスト計算機180からライトコマンド又はリードを受信すると、MDKC10Rに転送する。この時にRDKCはキャッシュメモリ131にデータを格納する必要はなく、バッファ113に格納した後、MDKC10Rに転送する。ライト処理において、RDKC10Rは、MDKC10Rからライト完了応答を受信すると、ホスト計算機180にライト完了応答を返す。リード処理において、RDKC10Rは、MDKC10Mからリードデータを受信し、ホスト計算機180に送信する。
MPPK120において発生した障害に対応する処理の例を説明する。ホスト計算機180からのライトコマンドを処理中にMPPK120において障害が発生した場合、PVOLとSVOLとが同期していない可能性がある。本例において、障害による性能低下を防ぐと共に、他のMPPK120が、RDKC10RのSVOLにライトコマンドを送信することによって、HAボリュームペアの同一性を確実に維持する。
SVOLへのライトコマンドの送信は、例えば、障害を起こしたMPPK120(障害MPPK120)を検知した他のMPPK120(障害検知MPPK120)、及び/又は、障害MPPK120からPVOLの担当を承継した他のMPPK120(承継MPPK120)が行うことができる。
上述のように、キャッシュスロット管理テーブル270のスロットステータスが二重書き中の場合、SVOLへライトデータが書き込まれているか否かは、MDKC10Mにとって不明である。したがって、MPPK120は、キャッシュスロット管理テーブル270を参照して、ライトコマンドを送信すべきJOBを特定できる。
障害検知MPPK120は、キャッシュスロット管理テーブル270において、障害MPPK120が担当していたPVOLのエントリであって、スロットステータスが二重書き中であるエントリを検索する。これらは、ライトコマンドをSVOLに送信すべきエントリである。障害検知MPPK120は、見つけたエントリにおいて、スロットステータスを、「ライトコマンド送信要」に変更する。
例えば、各承継MPPK120が、キャッシュスロット管理テーブル270における上記変更を行っても良い。各承継MPPK120は、担当を承継したPVOLのエントリのみ更新する。
図23は、承継MPPK120が、SVOLへのライトコマンドを送信する処理のフローチャートである。図23は、承継MPPK120による、承継したPVOLへのライト処理又リード処理内の一部のステップを示している。
本例において、承継MPPK120は、障害MPPK120から承継したPVOLのリード/ライト処理において、必要なライトコマンドをSVOLに送信する。ライト処理は、ホストライト処理又はDKC間ライト処理である。
図23に示しているように、承継MPPK120は、今回コマンドに対応するJOBの排他ロックを確保し(S551)、さらに、キャッシュスロットを確保する(S552)。承継MPPK120は、キャッシュスロット管理テーブル270において、ライトコマンドをSVOLに送信すべきエントリが存在するか検索する(S553)。
例えば、承継MPPK120は、当該PVOLのエントリであって、スロットステータスが「ライトコマンド送信要」であるエントリを検索する。または、MPPK120は、今回のコマンドで指定されている領域の一部又は全部を含み、スロットステータスが「ライトコマンド送信要」であるエントリを検索してもよい。
検索したエントリが存在する場合(S553:Y)、承継MPPK120は、ライトコマンドをRDKC10Rに発行し、データ転送のREADY応答を待つ(S554)。READY応答を受信すると、承継MPPK120は、RDKC10Rに、キャッシュスロットに格納されているライトデータを転送し、ライト完了の応答を待つ(S555)。
RDKC10Rからライト完了応答を受信すると、承継MPPK120は、キャッシュスロット管理テーブル270において、当該キャッシュスロットのスロットステータスを、ダーティに変更する(S556)。その後、承継MPPK120は、ホスト計算機180から今回受信したコマンドに対応する処理を再開する。
承継MPPK120とは異なるMPPK120、例えば、障害検知MPPK120が、キャッシュスロット管理テーブル270を参照して、必要なライトコマンドをRDKC10Rに送信してもよい。MPPK120は、キャッシュスロット管理テーブル270において、「ライトコマンド送信要」のエントリを順次選択してSVOLへのライト処理を実行する。障害検知MPPK120と承継MPPK120の双方又は一方のみが、SVOLへのライト処理を実行してよい。
SVOLへのライト処理において、RDKC10RからMDKC10Mに対するJOB排他ロック解除コマンドの他の送信方法を説明する。上記構成例において、RDKC10Rは、排他ロック解除コマンドをライトデータと別にMDKC10Mに送信する。以下に説明する例において、RDKC10Rは、ライトデータと共に排他ロック解除コマンドをMDKC10Mに送信する。これにより、トラヒックを低減する。
図24は、ライトデータと共に排他ロック解除コマンドを送信するシーケンスを示している。以下においては、図16に示しているシーケンス図との相違点を主に説明する。図24において、MDKC10Mが排他ロックを確保し(S251)、データ転送のREADY応答(XFR RD)をRDKC10Rに返す。
RDKC10Rは、ライトデータ(WR DAT)と共に、排他ロック解除コマンドをMDKC10Mに送信する。具体的には、RDKC10Rは、複数の部分に分けてライトデータを送信する場合、最後の部分の送信において排他ロック解除コマンドを共に送信する。
MDKC10Mは、RDKC10Rからライトデータ(WR DAT)と共に排他ロック解除コマンドを受信する。MDKC10Mは、受信したライトデータを、PVOL内の指定された領域に書き込む(S252)。MDKC10Mは、PVOL内の領域へのデータの書き込みが完了すると、確保していた排他ロックを解除し(S257)する。その後、MDKC10Mは、RDKC10Rに、ライト完了応答(WR RSP)を返す。
本シーケンスは、FEPK100がライトコマンドとライトデータとを自動転送する機能を有していない構成において有効である。本シーケンスにより、MDKC10MとRDKC10Rとの間の通信回数を低減できる。
上記構成例において、RDKC10Rは、JOBの排他ロックを実行しない。以下に説明するように、RDKC10Rも、MDKC10Mのように、JOB排他ロックを実行してもよい。これにより、強固な順序保証によるより高い信頼性が得られる。
図25は、RDKC10RによるJOB排他ロックを含む、ホスト計算機180からPVOLへのライト処理のシーケンスを示している。以下においては、図15が示しているシーケンスとの相違点を主に説明する。
RDKC10Rは、MDKC10Mからライトコマンド(WR CMD)を受信すると、ライトコマンドにより指定された領域に対する排他ロックを確保する(S207)。RDKC10Rは、データ転送のREADY応答(XFR RD)をMDKC10Mに返し、MDKC10Mからライトデータ(WR DAT)を受信する。RDKC10Rは、受信したライトデータを、SVOL内のアドレス領域に書き込む(S203)。
RDKC10Rは、SVOL内のアドレス領域へのデータの書き込みが完了すると、ライト完了応答(WR RSP)をMDKC10Mに返す。さらに、RDKC10Rは、確保していた排他ロックを解除する(S209)。
図26は、RDKC10RによるJOB排他ロックを含む、ホスト計算機180からSVOLへのライト処理のシーケンスを示している。以下においては、図16が示しているシーケンスとの相違点を主に説明する。
ホスト計算機180は、RDKC10Rに対して、仮想ボリューム内の領域へのライトコマンド(WR CMD)を発行する。RDKC10Rは、仮想ボリュームに対応するSVOLにおいて、ライトコマンドにより指定された領域に対する排他ロックを確保する(S257)。
その後のRDKC10Rの実行ステップは、SVOL内の指定された領域にライトデータを書き込むステップ(S253)まで、図16が示しているシーケンス図と同様である。RDKC10Rは、ライト完了応答(WR RSP)をホスト計算機180に返した後、確保していた排他ロックを解除する(S258)。次に、RDKC10Rは、JOBを指定して、排他ロック解除コマンドをMDKC10Mに送信する。
図27は、図25及び図26のシーケンスに対応する、ホスト計算機180からのライトコマンドに対するMDKC10M及びRDKC10Rの処理のフローチャートを示している。以下においては、図17に示しているフローチャートとの相違点を主に説明する。図17のフローチャートとの相違点は、RDKC10Rによる排他ロックの確保(S321)と、排他ロックの解除(S322)である。
RDKC10Rは、ホスト計算機180にREADY応答を返す前に、ステップS321において、新たなJOBの排他ロックを確保する。排他ロックを確保する方法は、ステップS303におけるMDKC10Mの方法と同様である。排他種別は、R/W排他である。
RDKC10Rは、ホスト計算機180へライト完了応答を返した後、ステップS322において、排他ロックを解除する。排他ロックを解除する方法は、ステップS311におけるMDKC10Mの方法と同様である。
図28は、図25及び図26のシーケンスに対応する、MDKC10M、RDKC10R間のライトコマンドに対するMDKC10M及びRDKC10Rの処理のフローチャートを示している。以下においては、図18に示しているフローチャートとの相違点を主に説明する。図18のフローチャートとの相違点は、RDKC10Rによる排他ロックの確保(S371)と、排他ロックの解除(S372)である。
RDKC10Rは、MDKC10MにREADY応答を返す前に、ステップS371において、新たなJOBの排他ロックを確保する。排他ロックを確保する方法は、ステップS353におけるMDKC10Mの方法と同様である。排他種別は、R/W排他である。
RDKC10Rは、MDKC10Mへライト完了応答を返した後、ステップS372において、排他ロックを解除する。排他ロックを解除する方法は、ステップS360におけるMDKC10Mの方法と同様である。RDKC10Rは、ホスト計算機180からのリードコマンドに対する処理においても、排他ロックを実行してもよい。その場合、RDKC10Rのリード処理は、MDKC10Mによる排他ロックを伴うリード処理と同様である。
RDKCでこのようにSVOLへのI/OアクセスにおいてJOB排他制御を行う事により信頼性を高めることができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
なお、本実施例ではストレージ装置がストレージ装置及びボリュームを仮想化しているが、仮想化専用装置やホストのパスマネージャ側の機能により、ストレージ装置及びボリュームを仮想化してもよい。本実施例は冗長化(HA)構成しているActive−Active型の複数のボリュームを備える複数のストレージ装置に対して適用可能である。

Claims (10)

  1. 第1のストレージ装置及び第2のストレージ装置を備えるストレージシステムであって、
    前記第1のストレージ装置は第1の論理ボリュームを提供し、
    前記第2のストレージ装置は前記第1の論理ボリュームとペア構成を組む第2の論理ボリュームを提供し、
    前記第1のストレージ装置は前記第1の論理ボリュームの記憶領域のうち二重書き中である記憶領域を管理し、
    前記第1の論理ボリューム又は前記第2の論理ボリュームへのライトデータをホスト計算機から受領した場合、前記第1の論理ボリューム、前記第2の論理ボリュームの順に前記ライトデータを二重書きし、
    前記第1のストレージ装置は
    前記第1の論理ボリュームへのリード要求をホスト計算機から受領した場合、前記リード要求のあった記憶領域が二重書き中か判断し、
    前記判断の結果二重書き中の場合、規定時間経過後前記リード要求のあった記憶領域が二重書き中か判断を再度おこない、
    前記判断の結果二重書き中でない場合、前記第1の論理ボリュームからリード要求の あったデータを読み出して前記ホスト計算機に応答し、
    前記第2のストレージ装置は前記第2の論理ボリュームへのリード要求を前記ホスト計算機から受領した場合、前記第2の論理ボリュームからリード要求のあったデータを読み出して前記ホスト計算機に応答する、
    ことを特徴とするストレージシステム。
  2. 前記第1のストレージ装置及び前記第2のストレージ装置は、同じ識別子を前記ホスト計算機に応答することで、一つの仮想ストレージ装置として前記ホスト計算機に提供され、
    前記第1の論理ボリューム及び前記第2の論理ボリュームは同じ識別子を前記ホスト計算機に応答されることで、一つの仮想ボリュームとして前記ホスト計算機に提供される、
    ことを特徴とする請求項1記載のストレージシステム。
  3. 前記第2のストレージ装置は、
    バッファを備え、
    前記ホスト計算機から前記第2の論理ボリュームへの前記ライトデータを受領した場合、
    前記バッファに前記ライトデータを格納し、
    前記第1のストレージ装置に前記ライトデータを送信し、
    前記第1のストレージ装置からライト完了通知を受領し、
    前記バッファに格納した前記ライトデータを前記第2の論理ボリュームに格納し、
    前記ホスト計算機にライト完了応答を返す、
    ことを特徴とする請求項2記載のストレージシステム。
  4. 前記第1のストレージ装置は、
    前記第2のストレージ装置から前記ライトデータを受領した場合、

    前記ライトデータを格納すべき記憶領域が二重書き中か判断し、
    前記判断の結果二重書き中の場合、規定時間経過後前記ライトデータを格納すべき記憶領域が二重書き中か判断を再度おこない、
    前記判断の結果二重書き中でない場合、前記ライトデータを格納すべき領域を二重書き中と管理し、
    前記第1の論理ボリュームに前記ライトデータを格納し、
    前記第2のストレージ装置に前記ライト完了通知を送信し、
    前記第2のストレージ装置からライト完了通知を受領し、
    前記ライトデータを格納すべき領域の二重書き中の管理を解除する、
    ことを特徴とする請求項3記載のストレージシステム。
  5. 前記第1のストレージ装置は、
    前記第1の論理ボリュームへの前記ライトデータをホスト計算機から受領した場合、
    前記ライトデータを格納すべき記憶領域が二重書き中か判断し、
    前記判断の結果二重書き中の場合、規定時間経過後前記ライトデータを格納すべき記憶領域が二重書き中か判断を再度おこない、
    前記判断の結果二重書き中でない場合、前記ライトデータを格納すべき領域を二重書き中と管理し、
    前記第1の論理ボリュームに前記ライトデータを格納し、
    前記第2のストレージ装置に前記ライトデータを送信し、
    前記第2のストレージ装置からライト完了通知を受領し、
    前記ホスト計算機にライト完了応答を返し、
    前記ライトデータを格納すべき領域の二重書き中の管理を解除する、
    ことを特徴とする請求項2記載のストレージシステム。
  6. 前記ストレージシステムは前記ホスト計算機を備え、
    前記ホスト計算機は
    前記第1の論理ボリュームにアクセスできない場合には前記第2の論理ボリュームにアクセスし、
    前記第2のストレージ装置は、
    前記第2の論理ボリュームへの前記アクセスを受信した場合に、前記第1のストレージ装置の状態を確認し、
    前記第1のストレージ装置が障害状態であると判断した場合に、前記第2の論理ボリュームのデータに基づき前記ホスト計算機に応答を返す、
    ことを特徴とする請求項5記載のストレージシステム。
  7. 前記第2のストレージ装置は、前記第2の論理ボリュームに障害が発生した場合、
    前記ホスト計算機から前記第2の論理ボリュームへの前記ライトデータを受領した場合、
    前記第1のストレージ装置に前記ライトデータを送信し、
    前記第1のストレージ装置からライト完了通知を受領し、
    前記ホスト計算機にライト完了応答を返し、
    前記第2のストレージ装置は、前記第2の論理ボリュームへのリード要求を前記ホスト計算機から受領した場合、
    前記第1のストレージ装置に前記リード要求を送信し、
    前記第1のストレージ装置からリードデータを受領し、
    前記リードデータを前記ホスト計算機に応答する、
    ことを特徴とする請求項5記載のストレージシステム。
  8. 前記第1のストレージ装置は第1のプロセッサと第2のプロセッサとを備え、
    前記第1の論理ボリュームへの入出力を行う前記第1のプロセッサに障害が発生した場合、
    前記第2のプロセッサは、
    前記第1の論理ボリュームの記憶領域のうち二重書き中である記憶領域を特定し、
    二重書き中の前記第1の論理ボリュームの記憶領域に格納されるデータを第2のストレージ装置に送信し、
    前記第2のストレージ装置から前記二重書き中の前記第1の論理ボリュームの記憶領域に格納されるデータの格納完了応答を受領し、
    前記ホスト計算機からのコマンドに基づく前記第1の論理ボリュームへの入出力処理を実行する、
    ことを特徴とする請求項5記載のストレージシステム。
  9. 前記第2のストレージ装置は、
    前記第2の論理ボリュームの記憶領域のうち二重書き中である記憶領域を管理し、
    前記第2の論理ボリュームへの前記ライトデータを前記第1のストレージ装置から受領した場合、
    前記ライトデータを格納すべき記憶領域が二重書き中か判断し、
    前記判断の結果二重書き中の場合、規定時間経過後前記ライトデータを格納すべき記憶領域が二重書き中か判断を再度おこない、
    前記判断の結果二重書き中でない場合、前記ライトデータを格納すべき領域を二重書き中と管理し、
    前記第2の論理ボリュームに前記ライトデータ格納し、


    前記第1のストレージ装置にライト完了通知を返し、
    前記ライトデータを格納すべき領域の二重書き中の管理を解除する、
    ことを特徴とする請求項5記載のストレージシステム。
  10. 前記第2のストレージ装置は、
    バッファを備え、
    前記第2の論理ボリュームへのライトデータを前記ホスト計算機から受領した場合、
    前記ライトデータを格納すべき記憶領域が二重書き中か判断し、
    前記判断の結果二重書き中の場合、規定時間経過後前記ライトデータを格納すべき記憶領域が二重書き中か判断を再度おこない、
    前記判断の結果二重書き中でない場合、前記ライトデータを格納すべき領域を二重書き中と管理し、
    前記バッファに前記ライトデータを格納し、
    前記第1のストレージ装置に前記ライトデータを送信し、
    前記第1のストレージ装置からライト完了通知を受領し、
    前記バッファに格納した前記ライトデータを前記第2の論理ボリュームに格納し、
    前記ホスト計算機にライト完了応答を返し、
    前記ライトデータを格納すべき領域の二重書き中の管理を解除する、
    ことを特徴とする請求項5記載のストレージシステム。
JP2014530038A 2014-04-21 2014-04-21 ストレージシステム Active JP5620614B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/061151 WO2015162663A1 (ja) 2014-04-21 2014-04-21 ストレージシステム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014188451A Division JP6013420B2 (ja) 2014-09-17 2014-09-17 ストレージシステム

Publications (2)

Publication Number Publication Date
JP5620614B1 JP5620614B1 (ja) 2014-11-05
JPWO2015162663A1 true JPWO2015162663A1 (ja) 2017-04-13

Family

ID=52133612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014530038A Active JP5620614B1 (ja) 2014-04-21 2014-04-21 ストレージシステム

Country Status (6)

Country Link
US (2) US8943286B1 (ja)
JP (1) JP5620614B1 (ja)
CN (1) CN106133676B (ja)
DE (1) DE112014006605B4 (ja)
GB (1) GB2539829B (ja)
WO (1) WO2015162663A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512052B (zh) * 2014-10-20 2019-01-01 伊姆西公司 用于处理输入输出操作请求的方法和装置
JP6271769B2 (ja) * 2015-01-21 2018-01-31 株式会社日立製作所 計算機システム、計算機システムにおけるデータの移行方法
CN107111458B (zh) * 2015-01-27 2020-07-28 株式会社日立制作所 管理计算机及计算机系统的管理方法
WO2016121118A1 (ja) * 2015-01-30 2016-08-04 株式会社日立製作所 性能分析装置及び方法並びに記憶媒体
CN105988724B (zh) * 2015-02-12 2019-02-26 华为技术有限公司 多副本写入存储设备的方法及存储设备
US10592268B2 (en) 2015-04-06 2020-03-17 Hitachi, Ltd. Management computer and resource management method configured to combine server resources and storage resources and allocate the combined resources to virtual machines
EP3553647B1 (en) * 2015-12-31 2023-10-25 Huawei Technologies Co., Ltd. Data write method, apparatus, and system
JP6315000B2 (ja) * 2016-02-01 2018-04-25 日本電気株式会社 ストレージ管理システムおよびストレージ管理方法
CN107526537B (zh) * 2016-06-22 2020-03-20 伊姆西Ip控股有限责任公司 用于锁定存储系统中的存储区域的方法和系统
US10983882B2 (en) 2017-01-25 2021-04-20 Hitachi, Ltd. Method for latency improvement of storages using low cost hardware
WO2018158808A1 (ja) * 2017-02-28 2018-09-07 株式会社日立製作所 情報システム、管理プログラム及び情報システムのプログラム交換方法
CN107329698B (zh) * 2017-06-29 2020-08-11 杭州宏杉科技股份有限公司 一种数据保护方法及存储设备
US10732901B2 (en) 2017-06-30 2020-08-04 Hitachi Ltd. Storage system and storage control method
US11144251B2 (en) 2018-10-17 2021-10-12 International Business Machines Corporation Providing a global unique identifier for a storage volume
US11307944B2 (en) 2020-06-04 2022-04-19 Hitachi, Ltd. Automated failover for asynchronous remote copy
CN116466876A (zh) * 2020-09-11 2023-07-21 华为技术有限公司 一种存储系统及数据处理方法
US11416160B1 (en) 2021-02-25 2022-08-16 Hitachi, Ltd. Volume operation propagation for synchronous remote copy
US11579780B1 (en) 2021-08-27 2023-02-14 Hitachi, Ltd. Volume remote copy based on application priority

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5459857A (en) * 1992-05-15 1995-10-17 Storage Technology Corporation Fault tolerant disk array data storage subsystem
JPH10269030A (ja) 1997-03-25 1998-10-09 Hitachi Ltd 遠隔ファイル共用システムおよびその制御方法
JPH10320352A (ja) 1997-05-21 1998-12-04 Nec Gumma Ltd バスマスタ転送システム
US20090259817A1 (en) * 2001-12-26 2009-10-15 Cisco Technology, Inc. Mirror Consistency Checking Techniques For Storage Area Networks And Network Based Virtualization
JP2003241905A (ja) 2002-02-15 2003-08-29 Hitachi Ltd 記憶装置、データ記憶方法及び制御装置
JP2005196490A (ja) 2004-01-07 2005-07-21 Hitachi Ltd データ多重化のためのシステム及び方法
JP4738941B2 (ja) * 2005-08-25 2011-08-03 株式会社日立製作所 ストレージシステム及びストレージシステムの管理方法
JP2007066154A (ja) * 2005-09-01 2007-03-15 Hitachi Ltd データをコピーして複数の記憶装置に格納するストレージシステム
JP2007328611A (ja) * 2006-06-08 2007-12-20 Hitachi Ltd ストレージ仮想化システム及び方法
JP5106913B2 (ja) * 2007-04-23 2012-12-26 株式会社日立製作所 ストレージシステム、ストレージシステム管理方法、及び計算機システム
JP5217513B2 (ja) 2008-03-04 2013-06-19 株式会社リコー 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。
JP2009211401A (ja) 2008-03-04 2009-09-17 Hitachi Ltd ストレージ装置及びその制御方法
US8335899B1 (en) * 2008-03-31 2012-12-18 Emc Corporation Active/active remote synchronous mirroring
JP5072692B2 (ja) 2008-04-07 2012-11-14 株式会社日立製作所 複数のストレージシステムモジュールを備えたストレージシステム
JP5222617B2 (ja) * 2008-04-28 2013-06-26 株式会社日立製作所 情報システム及びi/o処理方法
JP4584328B2 (ja) * 2008-09-18 2010-11-17 株式会社日立製作所 記憶管理方法及び計算機システム
EP2521038A4 (en) * 2010-04-30 2014-01-22 Hitachi Ltd COMPUTER SYSTEM AND MEMORY CONTROL METHOD THEREFOR
US8635420B2 (en) * 2010-07-22 2014-01-21 Susan Elkington Resilient mirroring utilizing peer-to-peer storage
US8521974B2 (en) * 2010-11-23 2013-08-27 International Business Machines Corporation Migration of data in a distributed environment
US8566635B2 (en) * 2011-01-21 2013-10-22 Lsi Corporation Methods and systems for improved storage replication management and service continuance in a computing enterprise
US8782358B2 (en) * 2011-04-27 2014-07-15 International Business Machines Corporation Transparent input / output switching between synchronously mirrored storage volumes
US9021223B2 (en) * 2011-07-22 2015-04-28 Xiotech Corporation Resilient mirroring
WO2014061054A1 (en) * 2012-10-15 2014-04-24 Hitachi, Ltd. Storage system and method of controlling storage system
US9280396B2 (en) * 2012-11-01 2016-03-08 Netapp, Inc. Lock state synchronization for non-disruptive persistent operation

Also Published As

Publication number Publication date
CN106133676B (zh) 2019-05-17
JP5620614B1 (ja) 2014-11-05
US8943286B1 (en) 2015-01-27
GB2539829A (en) 2016-12-28
DE112014006605T5 (de) 2017-01-05
WO2015162663A1 (ja) 2015-10-29
DE112014006605B4 (de) 2023-02-16
GB2539829B (en) 2021-05-05
GB201614731D0 (en) 2016-10-12
US9632701B2 (en) 2017-04-25
US20150012704A1 (en) 2015-01-08
CN106133676A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
JP5620614B1 (ja) ストレージシステム
JP5057366B2 (ja) 情報システム及び情報システムのデータ転送方法
US9098466B2 (en) Switching between mirrored volumes
US20190310925A1 (en) Information processing system and path management method
US9213490B2 (en) Computer system and data migration method
JP2008134986A (ja) 情報システム、データ転送方法及びデータ保護方法
US10191685B2 (en) Storage system, storage device, and data transfer method
WO2014174594A1 (ja) ストレージシステムおよびストレージシステムの障害管理方法
JP2008112399A (ja) ストレージ仮想化スイッチおよびコンピュータシステム
US10152270B2 (en) Storage system
US7886186B2 (en) Storage system and management method for the same
JPWO2018011839A1 (ja) 情報処理システム、及び、情報処理システムの制御方法
US10761767B2 (en) Computer system and method for controlling storage apparatus that has replication direction from first logical device (in first storage) to second logical device (in second storage) and from said second logical device to third logical device (in said second storage), wherein said replication direction is reversed when second computer takes over for first computer
WO2015045149A1 (ja) 情報システム、ホストシステム、及びアクセス制御方法
JP6013420B2 (ja) ストレージシステム
JP2021033782A (ja) リモートコピーシステム
US11481138B2 (en) Creating indentical snapshots
US11822808B2 (en) Remotely replicating duplicated data
US11467930B2 (en) Distributed failover of a back-end storage director
US20220391243A1 (en) Dynamically redistributing i/o jobs among operating system threads
WO2018016041A1 (ja) ストレージシステム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

R150 Certificate of patent or registration of utility model

Ref document number: 5620614

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150