WO2009157086A1 - Raid装置並びにその制御装置および制御方法 - Google Patents

Raid装置並びにその制御装置および制御方法 Download PDF

Info

Publication number
WO2009157086A1
WO2009157086A1 PCT/JP2008/061734 JP2008061734W WO2009157086A1 WO 2009157086 A1 WO2009157086 A1 WO 2009157086A1 JP 2008061734 W JP2008061734 W JP 2008061734W WO 2009157086 A1 WO2009157086 A1 WO 2009157086A1
Authority
WO
WIPO (PCT)
Prior art keywords
priority
raid
storage device
unit
spare storage
Prior art date
Application number
PCT/JP2008/061734
Other languages
English (en)
French (fr)
Inventor
秀治郎 大黒谷
実希夫 伊藤
和彦 池内
親志 前田
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2008/061734 priority Critical patent/WO2009157086A1/ja
Publication of WO2009157086A1 publication Critical patent/WO2009157086A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • G06F11/1662Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device

Definitions

  • the present invention relates to a technique for controlling RAID (Redundant Array of Inexpensive Disks) that manages a combination of a plurality of disk devices. For example, when one of the disk devices constituting a RAID fails, The present invention relates to a technique for restoring data.
  • RAID Redundant Array of Inexpensive Disks
  • a RAID (Redundant Array of Inexpensive Disks) device that manages a combination of a plurality of disk devices is used to prevent data loss due to a failure of a disk device such as an HDD (Hard Disk Drive) and improve processing performance. It has been.
  • a hot spare disk device that is a substitute device has failed.
  • Patent Documents 1 to 4 There is known a method of performing a restoration process for allocating instead of a disk device and restoring data of a failed disk device (see, for example, Patent Documents 1 to 4 below).
  • examples of the restoration process include a rebuild process for restoring data based on the consistency logic. Further, for example, when a RAID device is composed of one or more disk devices to form a RAID group (RAID Group), by assigning a hot spare disk device to a RAID group including the failed disk device, Rebuild processing is executed for each group.
  • disk array devices such as recent RAID devices have become larger in scale than before. Therefore, the number of disk devices constituting the RAID device is increased, and failures of a plurality of disk devices are likely to occur simultaneously in the RAID device. In addition, the capacity of a single disk device is increased, and the time required for restoration processing is prolonged.
  • hot spare disk devices are allocated in order from the disk device that failed first, according to the order of failure. Therefore, in the conventional RAID device, when a plurality of disk devices fail simultaneously in the RAID device, or when restoration processing is performed on a plurality of failed disk devices, the importance level is increased. Even if a disk device holding high-level data later fails, there is a possibility that a hot spare disk device cannot be allocated, and restoration processing cannot be performed on highly important data. As a result, in the conventional RAID device, there is a possibility that the redundancy of highly important data cannot be secured, and thus the safety and reliability cannot be sufficiently improved.
  • RAID device As another example other than the above-described conventional RAID device, there is a RAID device (hereinafter sometimes referred to as another RAID device) in which a hot spare device is assigned in advance as a dedicated device for a specific RAID group. That is, this RAID device can be used only when a disk device in a specific RAID group fails, but cannot be used when a disk device in another RAID group fails.
  • a disclosed RAID device is a RAID device having a plurality of storage devices constituting a plurality of logical volumes accessed from a host device, and an abnormality among the plurality of storage devices.
  • a spare storage device that can restore the data stored in the abnormal storage device in which the error occurred
  • a control that controls a restoration process that is a process for restoring the data stored in the abnormal storage device to the spare storage device
  • the control unit includes a priority table that sets priorities for each of the plurality of logical volumes, a detection unit that detects the abnormality occurrence storage device, and the detection unit detects the abnormality occurrence storage device.
  • a determination unit that determines whether or not to execute the restoration process, and the restoration unit If it is determined that executes, and includes an execution unit for executing the reconstruction process.
  • the disclosed RAID device control device is stored in a plurality of storage devices constituting a plurality of logical volumes accessed from a host device, and an abnormality occurrence storage device in which an abnormality has occurred among the plurality of storage devices.
  • a RAID device for controlling a restoration process which is a process for restoring data stored in the abnormal storage device to the spare storage device.
  • a priority table that sets priorities for each of the plurality of logical volumes, a detection unit that detects the abnormality occurrence storage device, and the detection unit that detects the abnormality occurrence storage device, the priority Based on the priority for each of the plurality of logical volumes set in the table, a determination unit that determines whether or not to execute the restoration process, and the restoration unit executes the restoration process. Then it is determined, and an execution unit for executing the reconstruction process.
  • the disclosed RAID device control method is stored in a plurality of storage devices constituting a plurality of logical volumes accessed from a host device, and an abnormality occurrence storage device in which an abnormality has occurred among the plurality of storage devices.
  • a RAID device for controlling a restoration process which is a process for restoring data stored in the abnormal storage device to the spare storage device.
  • a determination step for determining whether or not to execute the restoration process; and if it is determined to execute the restoration process in the determination step, And an execution step of executing the management.
  • FIG. 1 is a diagram schematically showing a configuration example of a RAID (Redundant Array of Inexpensive Disks) apparatus 10 as an embodiment of the present invention.
  • the RAID apparatus 10 according to the present embodiment writes and reads data by being accessed from a plurality (eight in this case) of hosts (upper apparatuses) 11a to 11h.
  • the RAID device 10 includes a plurality (eight here) drive enclosures (DE; DriveaEnclosure) 12a to 12h, a plurality (here, four) controller modules (CM; Controller Module).
  • a control unit; a control device) 13a to 13d, a plurality (eight in this case) of channel adapters (CA) 14a to 14h and a router (RT) 15 are high-end machines.
  • the codes 11a to 11h are used when one of a plurality of hosts needs to be specified, but the code 11 is used when designating an arbitrary host.
  • reference numerals 12a to 12h are used when it is necessary to specify one of a plurality of drive enclosures, but reference numeral 12 is used to indicate any drive enclosure.
  • reference numerals 13a to 13d are used when one of a plurality of controller modules needs to be specified, but reference numeral 13 is used when referring to an arbitrary controller module.
  • reference numerals 14a to 14h are used when one of a plurality of channel adapters needs to be specified, but reference numeral 14 is used when referring to an arbitrary channel adapter.
  • the drive enclosure 12 has a plurality of disk devices 16.
  • the disk device 16 is realized by, for example, an HDD (Hard Disk Drive) or a semiconductor disk.
  • the drive enclosure 12a has a plurality (here, n; n is a natural number) of disk devices 16a-1 to 16a-n.
  • the drive enclosure 12b includes a plurality (here, n) of disk devices 16b-1 to 16b-n
  • the drive enclosure 12c includes a plurality (here, n) of disk devices 16c-1 to 16c-n
  • the drive enclosure 12d has a plurality of (here, n) disk devices 16d-1 to 16d-n
  • the drive enclosure 12e has a plurality (n in this case) of disk devices 16e-1 to 16e-n
  • the drive enclosure 12f has a plurality (here, n) of disk devices 16f-1 to 16f-n.
  • the drive enclosure 12g has a plurality (n in this case) of disk devices 16g-1 to 16g-n
  • the drive enclosure 12h has a plurality (here, n) of disk devices 16h-1 to 16h-n. ing.
  • reference numerals 16a-1 to 16a-n, 16b-1 to 16b-n, and 16c-1 to 16c are used to indicate one of the plurality of disk devices.
  • -N 16d-1 to 16d-n, 16e-1 to 16e-n, 16f-1 to 16f-n, 16g-1 to 16g-n, 16h-1 to 16h-n are used.
  • Reference numeral 16 is used to indicate.
  • the number of disk devices 16 provided in each drive enclosure 12 is not limited to the present embodiment. For example, a different number of disk devices 16 may be provided for each drive enclosure 12.
  • the disk device 16 functions as, for example, a storage device or a hot spare (HS) device (spare storage device; hot spare disk).
  • HS hot spare
  • a plurality (here, five) of disk devices 16a-1 to 16a-5 each function as a storage device, and at least the disk devices 16a-n function as hot spare devices. It is like that.
  • a plurality of (here, five) disk devices 16b-1 to 16b-5 function as storage devices, and at least the disk devices 16b-n function as hot spare devices. .
  • Each of .about.16f-n, 16g-1 to 16g-n, and 16h-1 to 16h-n functions as a storage device or a hot spare device.
  • the same reference numerals as the disk device for example, reference numeral 16 are used as reference numerals indicating the storage device and the hot spare device.
  • the hot spare device 16 is a storage device in which an abnormality (disk failure) has occurred among the plurality (8 ⁇ n in the example shown in FIG. 1) of disk devices 16a-1 to 16h-n (hereinafter referred to as an abnormality occurrence storage device).
  • the data stored in 16 can be restored. That is, the hot spare device 16 is a spare disk as an alternative device for the storage device 16.
  • the storage device 16 is configured in combination with one or more other storage devices 16 other than the storage device 16 to form a RAID group (RAID Group) R accessed from the host 11. .
  • a plurality (two in this case) of storage devices 16a-2 and 16b-2 form a RAID group R-0.
  • a plurality (four in this case) of storage devices 16e-2, 16f-2, 16g-2, and 16h-2 constitute a RAID group R-1.
  • a plurality (eight in this case) of storage devices 16a-1 to 16h-1 constitute a RAID group R-2.
  • a plurality (eight in this case) of storage devices 16a-3 to 16h-3 form a RAID group R-3.
  • a plurality (16 in this case) of storage devices 16a-4 to 16h-4, 16a-5 to 16h-5 constitute a RAID group R-4.
  • the RAID level of RAID group R-0 is RAID1
  • the RAID level of RAID group R-1 is RAID1 + 0.
  • the RAID level of RAID group R-2 is RAID5
  • the RAID level of RAID group R-3 is RAID6
  • the RAID level of RAID group R-4 is RAID6.
  • the RAID device 10 in this embodiment forms a plurality (here, five) of RAID groups R-0 to R-4 accessed from the host 13.
  • the codes R-0 to R-4 are used when one of a plurality of RAID groups needs to be specified, but the code R is used to indicate an arbitrary RAID group. Use.
  • the controller module 13 controls a rebuild process (restoration process) for restoring the data stored in the abnormality occurrence storage device 16 to the hot spare device 16.
  • the rebuild process is a process for restoring data based on the consistency logic.
  • the rebuild process is a process of restoring the RAID group R by restoring the data stored in the abnormality occurrence storage device 16 to the hot spare device 16 based on the data of one or more other disk devices 16. Redundancy can be restored.
  • the function of the controller module 13 will be described later.
  • the controller module 13 is connected to one or more (two in the example shown in FIG. 1) hosts 11 via the channel adapter 14.
  • the controller module 13a is connected to the host 11a via the channel adapter 14a and is connected to the host 11b via the channel adapter 14b.
  • the controller module 13b is connected to the host 11c via the channel adapter 14c, and is connected to the host 11d via the channel adapter 14d.
  • the controller module 13c is connected to the host 11e through the channel adapter 14e and is connected to the host 11f through the channel adapter 14f.
  • the controller module 13d is connected to the host 11g via the channel adapter 14g and is connected to the host 11h via the channel adapter 14h.
  • the router 15 relays data between the controller module 13 and the drive enclosure 12.
  • the router 15 is connected to the controller modules 13a to 13d and to the drive enclosures 12a to 12h.
  • the function of the controller module 13 will be described in detail.
  • FIG. 2 is a diagram schematically illustrating a configuration example of the controller module 13 in the RAID device 10 as an embodiment of the present invention
  • FIG. 3 is a diagram schematically illustrating a configuration example of the management information storage unit 17.
  • the controller module 13 includes a management information storage unit 17, a reception unit 18, a setting unit 19, a detection unit 20, a specification unit 21, a determination unit 22, and an execution unit 23.
  • the management information storage unit 17 stores a management table 24 as shown in FIG. 3, and is realized by a storage unit (not shown) such as a memory.
  • the management table 24 holds management information related to the control of the disk device 16 for each of the RAID groups R-0 to R-4.
  • the management information includes a RAID group number d1, a RAID level d2, a RAID group state d3, a block size d4, a volume d5, a disk d6, and a reconstruction priority d7.
  • the RAID group number d1 indicates the serial number of the RAID group R.
  • the RAID group number d1 is a serial number of a plurality of RAID groups R-0 to R-4, for example, “R-0”, “R-1”, “R-2”, “R-”. 3 "and” R-4 "are shown side by side.
  • the RAID group number d1 is not limited to this embodiment, and other identification information can be used.
  • the RAID level d2 indicates the RAID level of the RAID group R indicated by the RAID group number d1.
  • the RAID level d2 is any one of “RAID0”, “RAID1”, “RAID1 + 0”, “RAID2”, “RAID3”, “RAID4”, “RAID5”, and “RAID6”. The level is selectively shown. Since the RAID level is known, detailed description thereof is omitted.
  • the RAID level d2 corresponds to the RAID levels of the plurality of RAID groups R-0 to R-4 corresponding to the RAID groups R-0 to R-4 indicated by the RAID group number d1. (For each RAID group R-0 to R-4). In the example shown in FIG. 3, the RAID level d2 indicates “RAID1” corresponding to the RAID group R-0. Similarly, the RAID level d2 is “RAID1 + 0” corresponding to the RAID group R-1, “RAID5” corresponding to the RAID group R-2, “RAID6” corresponding to the RAID group R-3. "RAID6" corresponding to the RAID group R-4.
  • the RAID group status d3 indicates the status (status information) of the RAID group R indicated by the RAID group number d1.
  • the state of the RAID group R is a state relating to an abnormality (failure) or redundancy in the RAID group R.
  • the redundancy means that, for example, the same data or parity is written in a plurality of disk devices 16.
  • the RAID group status d3 selectively indicates one of “Available”, “Exposed”, “Rebuild”, “SpareInUse”, “Copyback”, and “Broken” as the status of the RAID group R. It is like that.
  • “Available” indicates a state in which the corresponding RAID group R is completely normal and the corresponding RAID group R has redundancy.
  • “Exposed” indicates a state in which any of the disk devices 16 constituting the corresponding RAID group R has no redundancy due to a single disk failure or the like (for example, a state in which the number of disks whose redundancy is 0 has failed). .
  • “Rebuild” indicates a state in which the corresponding RAID group R is undergoing a rebuild process, and the corresponding RAID group R has only partial redundancy.
  • “SpareInUse” indicates a state in which the corresponding RAID group R is in a state after the rebuild process for the hot spare device 16 and the corresponding RAID group R has redundancy.
  • “Copyback” indicates a state in which the corresponding RAID group R is being copied back to the replaced disk device 16 and the corresponding RAID group R has redundancy.
  • “Broken” indicates a state in which, in the plurality of disk devices 16 constituting the corresponding RAID group R, a number of disks exceeding the redundancy have failed and data has been lost.
  • the RAID group status d3 corresponds to the status of each of the plurality of RAID groups R-0 to R-4 to each of the RAID groups R-0 to R-4 indicated by the RAID group number d1. These are shown side by side (for each RAID group R-0 to R-4).
  • the management table 24 functions as a status table that stores status information regarding the redundancy of the RAID group R for each of the plurality of RAID groups R-0 to R-4 (hereinafter also referred to as the status table 24). .
  • the block size d4 indicates the capacity of each RAID group R-0 to R-4 indicated by the RAID group number d1.
  • the volume d5 indicates a host volume (arbitrary number) set in each RAID group R-0 to R-4 indicated by the RAID group number d1.
  • the disk d6 indicates the type of the disk (plural) constituting each RAID group R-0 to R-4 indicated by the RAID group number d1.
  • the reconstruction priority d7 indicates the priority (reconstruction priority) P of the RAID group R indicated by the RAID group number d1.
  • the reconstruction priority P is a priority order in which redundancy must be ensured when an abnormality occurs in any of the storage devices 16 constituting the RAID group R.
  • the reconstruction priority d7 is configured to selectively indicate five levels of priority P between values “0” to “4”, with the value “0” being the lowest priority P. .
  • the reconstruction priority d7 is set by the setting unit 19 described later.
  • the priorities P-0 to P-4 for each of the plurality of RAID groups R-0 to R-4 are assigned to the RAID groups R-0 to R-4 indicated by the RAID group number d1. It is shown to correspond to each of R-4 (for each RAID group R-0 to R-4).
  • the reconstruction priority d7 indicates the value “4” as the priority P-0 of the RAID group R-0.
  • the reconstruction priority d7 has the value “3” as the priority P-1 of the RAID group R-1, the value “2” as the priority P-2 of the RAID group R-2, and the RAID group R.
  • the value “1” is shown as the priority P-3 of ⁇ 3, and the value “0” is shown as the priority P-4 of the RAID group R-4.
  • the management table 24 functions as a priority table for setting priorities P-0 to P-4 for each of the plurality of RAID groups R-0 to R-4 (hereinafter also referred to as the priority table 24). is there).
  • the codes indicating the priorities the codes P-0 to P-4 are used when one of a plurality of priorities needs to be specified, but the code P is used when indicating an arbitrary priority. Use.
  • the receiving unit 18 receives priority information (not shown) regarding the priority P. For example, when the user inputs priority information to an input device (input unit; not shown) such as a keyboard of the host 11 or the RAID device 10, the receiving unit 18 receives the priority information from the input device. ing. In the present embodiment, the user inputs arbitrary priority information to the input device based on the importance of the data included in the RAID group R.
  • the setting unit 19 sets priority information received by the receiving unit 18 in the management table 24, and is realized by a processing unit (not shown) such as a CPU (Central Processing Unit). Therefore, it can be said that the priority information is set in the priority table 24 based on the importance of the data included in the RAID group R.
  • the detection unit 20 detects the abnormality occurrence storage device 16 and is realized by a processing unit (not shown) such as a CPU.
  • the detection unit 20 can be realized using various known detection methods.
  • the specifying unit 21 specifies any one of the hot spare devices 16 among a plurality of hot spare devices (for example, reference numerals “16a-n” and “16b-n” shown in FIG. 1) as a specific hot spare device (specific spare storage device). This is realized by a processing unit (not shown) such as a CPU.
  • the identification unit 21 identifies a specific hot spare device from the plurality of hot spare devices 16 that are in use when all of the plurality of hot spare devices 16 are in use or rebuilding.
  • the determination unit 22 performs rebuild processing based on the reconstruction priority d 7 for each of the plurality of RAID groups R-0 to R-4 set in the management table 24. Whether or not to execute is determined, and is realized by a processing unit (not shown) such as a CPU.
  • the determination unit 22 compares the first priority P1 and the second priority P2 and executes the rebuild process for the specific hot spare device 16. It is to judge whether or not.
  • the first priority P1 is the priority P set in the RAID group (abnormality occurrence logical volume) R including the abnormality occurrence storage device 16.
  • the second priority P2 is the priority P set for the RAID group (in-use logical volume) R including the specific hot spare device 16.
  • the determination unit 22 determines not to execute the rebuild process.
  • the execution unit 23 executes the rebuild process for the data in the abnormality occurrence storage device 16 for the specific hot spare device 16. (Not shown).
  • the execution unit 23 determines that the rebuild process is to be executed by the determination unit 22 when all of the plurality of hot spare devices 16 are in use
  • the specific hot spare device 16 is assigned a RAID group R that is in use.
  • the rebuild process is executed on the separated specific hot spare device 16.
  • FIG. 4 is a diagram schematically showing a first operation example in the RAID device as one embodiment of the present invention.
  • FIG. 5 is a diagram schematically illustrating the second operation example
  • FIG. 6 is a diagram schematically illustrating the third operation example
  • FIG. 7 is a diagram schematically illustrating the fourth operation example.
  • FIG. 8 is a diagram schematically showing the fifth operation example
  • FIG. 9 is a diagram schematically showing the sixth operation example
  • FIG. 10 is a diagram schematically showing the seventh operation example.
  • the detection unit 20 detects the storage device 16c-1 as an abnormality occurrence storage device (disk failure; A1 ").
  • the specifying unit 21 refers to the management table (priority table) 24 so that the value “2” of the priority P-4 of the RAID group R-2 including the abnormality occurrence storage device 16c-1 is changed to the priority table 24. It is determined that it is not the lowest value “0” among the priority levels P set to “1”. Then, the specifying unit 21 specifies the hot spare device 16a-n as the specific hot spare device from the plurality of unused hot spare devices 16a-n and 16b-n.
  • the determination unit 22 determines that the rebuild process is executed on the specific hot spare device 16a-n without comparing the priorities. . Then, the execution unit 23 executes rebuild processing for the data in the storage device 16c-1 with respect to the specific hot spare device 16a-n (HS allocation; see reference numeral “A2” in FIG. 4).
  • the priority P of the RAID group R including the abnormality occurrence storage device 16 is not the lowest value among the priorities P set in the priority table 24, and there is an unused hot spare device 16. In this case, the abnormality storage device 16 is replaced with an unused hot spare device 16 without comparing the priorities.
  • the detection unit 20 detects the storage device 16g-2 as an abnormality occurrence storage device (disk failure; reference sign “FIG. 5”). B1 ").
  • the specifying unit 21 refers to the management table (priority table) 24 so that the value “3” of the priority P-1 of the RAID group R-1 including the abnormality occurrence storage device 16g-2 is changed to the priority table 24. It is determined that it is not the lowest value “0” among the priority levels P set to “1”.
  • the identifying unit 21 refers to the management table (status table) 24 to determine that the status of the RAID group R-2 using the hot spare device 16a-n is “SpareInUse”. Further, the specifying unit 21 refers to the management table (status table) 24 to determine that the status of the RAID group R-3 using the hot spare device 16b-n is “SpareInUse”.
  • the specifying unit 21 is included in the RAID group R-3 having the lowest priority among all the hot spare devices in use (in the example shown in FIG. 5, the hot spare devices 16a-n and 16b-n).
  • the hot spare device 16b-n is specified as a specific hot spare device.
  • the determination unit 22 sets the value “3” of the priority R-1 set in the RAID group R-1 including the abnormality occurrence storage device 16g-2 and the RAID group R-3 including the specific hot spare device 16b-n. Compared with the value “1” of the priority level P-3. As a result of the comparison, the determination unit 22 determines that the rebuild process is executed for the specific hot spare device 16b-n because the value “3” of the priority P-1 is higher than the value “1” of the priority P-3. To do.
  • the execution unit 23 disconnects the specific hot spare device 16b-n from the RAID group R-3 that is in use (HS disconnection; see the reference numeral “B2” in FIG. 5), and Rebuild processing is executed on the data in the storage device 16g-2 (HS allocation; see reference numeral “B3” in FIG. 5). Therefore, in the RAID device 10, the hot spare device 16 is in use, and the priority P of the RAID group R including the abnormality occurrence storage device 16 is the lowest value among the priorities P set in the priority table 24. If not, the abnormality occurrence storage device 16 is replaced with the hot spare device 16 in use in the RAID group R having low priority and redundancy.
  • the detection unit 20 detects the storage device 16g-2 as an abnormality occurrence storage device (disk failure; reference sign “FIG. 6”). C2 ").
  • the specifying unit 21 refers to the management table (priority table) 24 so that the value “3” of the priority P-1 of the RAID group R-1 including the abnormality occurrence storage device 16g-2 is changed to the priority table 24. It is determined that it is not the lowest value “0” among the priority levels P set to “1”.
  • the identifying unit 21 refers to the management table (status table) 24 to determine that the status of the RAID group R-2 using the hot spare device 16a-n is “SpareInUse”.
  • the specifying unit 21 refers to the management table (status table) 24 to determine that the status of the RAID group R-3 using the hot spare device 16b-n is “Rebuild”.
  • the specifying unit 21 has redundancy and has the highest priority among all the hot spare devices in use or rebuilding (in the example shown in FIG. 6, the hot spare devices 16a-n and 16b-n).
  • the hot spare devices 16b-n included in the lower RAID group R-3 are specified as specific hot spare devices.
  • the identifying unit 21 is based on the management table (priority table and status table) 24 and has a redundancy and the hot spare device included in the RAID group R having the lowest priority P among the plurality of hot spare devices 16. 16 is specified as a specific hot spare device.
  • the determination unit 22 sets the value “3” of the priority P-1 set in the RAID group R-1 including the abnormality storage device 16g-2 and the RAID group R-3 including the specific hot spare device 16b-n. Compared with the value “1” of the priority level P-3. As a result of the comparison, the determination unit 22 determines that the rebuild process is executed for the specific hot spare device 16b-n because the value “3” of the priority P-1 is higher than the value “1” of the priority P-3. To do.
  • the execution unit 23 disconnects the specific hot spare device 16b-n from the RAID group R-3 (HS disconnection; see reference numeral “C3” in FIG. 6), and stores the storage device 16g-
  • the rebuild process is executed for the data No. 2 (HS allocation; see reference numeral “C4” in FIG. 6). Therefore, in the RAID device 10, the hot spare device 16 is in use or rebuilding, and the priority P of the RAID group R including the abnormality occurrence storage device 16 is the priority P set in the priority table 24. If it is not the lowest value, the abnormality occurrence storage device 16 is replaced with the hot spare device 16 that is being used or rebuilding in the RAID group R having the low priority.
  • the detection unit 20 detects the storage device 16g-2 as an abnormality occurrence storage device (disk failure; D2 ").
  • the specifying unit 21 refers to the management table (priority table) 24 so that the value “3” of the priority P-1 of the RAID group R-1 including the abnormality occurrence storage device 16g-2 is changed to the priority table 24. It is determined that it is not the lowest value “0” among the priority levels P set to “1”.
  • the identifying unit 21 determines that the status of the RAID group R-2 using the hot spare device 16a-n is “SpareInUse” by referring to the management table (status table) 24.
  • the specifying unit 21 refers to the management table (status table) 24 to determine that the status of the RAID group R-3 using the hot spare device 16b-n is “Exposed”.
  • the identifying unit 21 has redundancy and has the highest priority among all the hot spare devices in use or rebuilding (in the example shown in FIG. 7, the hot spare devices 16a-n and 16b-n).
  • the hot spare devices 16a-n included in the lower RAID group R-2 are specified as specific hot spare devices.
  • the determination unit 22 sets the value “3” of the priority P-1 set in the RAID group R-1 including the abnormality occurrence storage device 16g-2 and the RAID group R-2 including the specific hot spare device 16a-n. Compared with the value "2" of the priority P-2 that has been set. As a result of the comparison, the determination unit 22 determines that the rebuild process is to be executed for the specific hot spare device 16a-n because the value “3” of the priority P-1 is higher than the value “2” of the priority P-2. To do.
  • the execution unit 23 disconnects the specific hot spare device 16a-n from the RAID group R-2 (HS disconnection; see reference numeral “D3” in FIG. 7), and stores the storage device 16g-
  • the rebuild process is executed for the data No. 2 (HS allocation; see reference numeral “D4” in FIG. 7). Therefore, in the RAID device 10, the hot spare device 16 is in use, and the priority P of the RAID group R including the abnormality occurrence storage device 16 is the lowest value among the priorities P set in the priority table 24. If there is no redundancy in the RAID group R that has the lowest priority among the RAID groups R that are using the hot spare device 16, the abnormality storage device 16 is used as a redundant device that is using the hot spare device 16. The RAID group R having the lowest priority is replaced with the hot spare device 16 being used in the RAID group R having the lowest priority.
  • the detection unit 20 detects the storage device 16g-2 as an abnormality occurrence storage device (disk failure; reference numeral in FIG. 8). See “E2”).
  • the specifying unit 21 refers to the management table (priority table) 24 so that the value “3” of the priority P-1 of the RAID group R-1 including the abnormality occurrence storage device 16g-2 is changed to the priority table 24. It is determined that it is not the lowest value “0” among the priority levels P set to “1”. Further, the identifying unit 21 refers to the management table (state table) 24 to determine that the state of the RAID group R-2 using the hot spare device 16a-n is “Exposed”. Therefore, the specifying unit 21 does not specify a specific hot spare device because there is no redundancy in the RAID group R-3 that is using all the hot spare devices in the RAID device 10.
  • the determining unit 22 determines that the rebuild process is not executed, and the executing unit 23 operates without executing the rebuild process for the data in the storage device 16g-2. (No operation related to HS; see symbol “E3” in FIG. 8). Therefore, the RAID device 10 performs rebuild processing when all the hot spare devices 16 are in use in the RAID group R and all the RAID groups R using the hot spare device 16 have no redundancy. Instead, it waits for the abnormality occurrence storage device 16 to be replaced.
  • the detection unit 20 detects this storage device 16g-2 as an abnormality occurrence storage device (disk failure; reference numeral in FIG. 9). See “F1”).
  • the specifying unit 21 refers to the management table (priority table) 24 so that the value “3” of the priority P-1 of the RAID group R-1 including the abnormality occurrence storage device 16g-2 is changed to the priority table 24. It is determined that it is not the lowest value “0” among the priority levels P set to “1”.
  • the specifying unit 21 refers to the management table (status table) 24 to determine that the status of the RAID group R-0 that uses the hot spare device 16a-n is “SpareInUse”. Then, since all the hot spare devices in the RAID device 10 are in use in the RAID group R-0, the specifying unit 21 specifies the hot spare devices 16a-n included in the RAID group R-0 having the lowest priority P. Identifies as a hot spare device.
  • the determination unit 22 sets the value “3” of the priority P-1 set in the RAID group R-1 including the abnormality occurrence storage device 16g-2 and the RAID group R-0 including the specific hot spare device 16a-n. Compared with the value “4” of the priority level P-0. As a result of the comparison, since the value “3” of the priority P-1 is lower than the value “4” of the priority P-0, the determination unit 22 must execute the rebuild process for the specific hot spare device 16a-n. to decide.
  • the execution unit 23 ends the operation without executing the rebuild process for the data in the storage device 16g-2 (no operation related to HS; FIG. 9). (Refer to the symbol “F2”). Therefore, when all the hot spare devices are used in the RAID group R having a higher priority than the RAID group R including the abnormality occurrence storage device 16, the RAID device 10 does not perform the rebuild process and generates an abnormality. It waits for the storage device 16 to be replaced.
  • the hot spare devices 16a-n and 16b-n in the RAID device 10 are unused.
  • the detection unit 20 detects the storage device 16c-4 as an abnormality occurrence storage device (disk failure; reference sign “FIG. 10”). G1 ").
  • the specifying unit 21 refers to the management table (priority table) 24 so that the value of the priority P-4 of the RAID group R-4 including the abnormality occurrence storage device 16c-4 is set in the priority table 24. It is determined that the priority value P is the lowest value “0”. Therefore, the specifying unit 21 does not specify the specific hot spare device, and the determining unit 22 determines not to execute the rebuild process.
  • the execution unit 23 terminates the operation without executing the rebuild process for the data in the storage device 16c-4 (no operation related to HS; FIG. 10). (Refer to the symbol “G2”). Therefore, when the priority P of the RAID group R including the abnormality occurrence storage device 16 is the lowest, the RAID device 10 does not perform the rebuild process regardless of whether there is an unused hot spare device 16 or not. Then, it waits for the abnormality occurrence storage device 16 to be replaced.
  • the operation procedure in the RAID device 10 according to the embodiment of the present invention configured as described above will be described with reference to the flowchart (steps S11 to S17) shown in FIG.
  • the RAID group including the storage device 16 in which an abnormality has occurred is indicated as R1
  • the first priority that is the priority of the RAID group R1 is indicated as P1.
  • the RAID group that is using the specific hot spare device is indicated as R2, and the second priority that is the priority of the RAID group R2 is indicated as P2.
  • the detection unit 20 detects the abnormality occurrence storage device 16 (detection step). Then, the specifying unit 21 determines whether or not the first priority P1 is the lowest priority among the priorities P set in the priority table 24 (step S11).
  • the specifying unit 21 does not specify the specific hot spare device, and the determining unit 22 executes the rebuild process. Judge not to. Then, since the determination unit 22 determines not to execute the rebuild process, the execution unit 23 ends the process without executing the rebuild process for the data of the disk device 16.
  • the specifying unit 21 determines whether or not an unused hot spare device 16 exists in the RAID device 10. (Step S12). As a result of the determination, if there is an unused hot spare device 16 in the RAID device 10 (see the “YES” route in step S12), the specifying unit 21 specifies the unused hot spare device 16 as the specified hot spare device 16. (Specific step) Since the specific hot spare device 16 specified by the specifying unit 21 is not used, the determination unit 22 determines that the rebuild process is performed on the specific hot spare device 16 without performing priority comparison (determination step). . Then, the execution unit 23 assigns the unused specific hot spare device 16 to the RAID group R1, executes the rebuild process for the data of the disk device 16 in which an abnormality has occurred (step S13; execution step), and ends the process. To do.
  • the specifying unit 21 has a redundant RAID in a state where the hot spare device 16 is in use.
  • the group R and the RAID group R that is being rebuilt for the hot spare device 16 are searched using the management table (status table) 24, and all of the searched RAID groups R-0 to R-4 are searched.
  • the RAID group R2 having the lowest priority is selected using the management table (priority table) 24 (step S14; specific step).
  • the determination unit 22 compares the second priority P2 that is the priority of the RAID group R2 selected by the specifying unit 21 and the first priority P1 that is the priority of the RAID group R1 in which an abnormality has occurred. Comparison is performed (step S15; determination step). As a result of the comparison, when the first priority P1 is lower than or equal to the second priority P2 (see “NO” route in step S15), the execution unit 23 does not perform the rebuild process, Exit. Then, the RAID device 10 waits for the failed storage device 16 to be replaced.
  • the execution unit 23 disconnects the hot spare device 16 of the RAID group R2 and performs the RAID.
  • a process for forcibly reducing the redundancy of the group R2 is executed (step S16; execution step). Then, the execution unit 23 assigns (embeds) the disconnected hot spare device 16 to the RAID group R1 to start the rebuild process (step S17; execution step), and ends the process.
  • the redundancy of data of the RAID group R having the higher priority P is preferentially secured.
  • the RAID device 10 as an embodiment of the present invention, there is no unused hot spare device 16, and the priority P of the RAID group R including the abnormality occurrence storage device 16 is determined in the priority table 24. If the hot spare device 16 is not in the lowest priority, the hot spare device 16 is in use or rebuilding, and is in use in the RAID group R having the lowest priority among the RAID groups R having redundancy. It is determined that the rebuild process is executed.
  • the RAID device 10 is used in a case where all hot spare devices 16 that are in use or rebuilding are used in a RAID group R that has a higher priority than the RAID group R that includes the abnormality storage device 16, or When all the RAID groups R using the hot spare device 16 have no redundancy, it is determined that the rebuild process is not executed. Therefore, by adopting the concept of the priority of the RAID group R, data redundancy of the RAID group R having higher importance (in order of reconstruction priority) is preferentially secured. Thereby, data with high importance in the RAID device 10 can be proactively protected, and the safety and reliability of the RAID device 10 can be improved.
  • each RAID group R in the RAID apparatus 10 is considered, and management is performed so as to preferentially ensure redundancy of data having high importance, thereby increasing the scale of the apparatus.
  • management is performed so as to preferentially ensure redundancy of data having high importance, thereby increasing the scale of the apparatus.
  • RAID devices even when failures of a plurality of disk devices 16 occur at the same time in the RAID device 10 or when rebuild processing is executed for a plurality of failed disk devices 16, Safety and reliability can be improved.
  • the priority P of the RAID group R including the abnormality storage device 16 is the lowest, it is determined that the rebuild process is not executed regardless of whether there is an unused hot spare device 16 or not. Since the hot spare device 16 can be assigned only to highly important data in the RAID device 10, the highly important data can be protected more reliably, and the safety of the RAID device 10 can be further enhanced.
  • the said embodiment demonstrated the case where the RAID group R and the logical volume were matched 1 to 1, and the priority was set for every RAID group R, it is not limited to it,
  • a plurality of logical volumes may be configured in the RAID group R, and priority may be set for each of the plurality of logical volumes.
  • the present invention is not limited to this, and the RAID level on the premise of rebuild processing is described.
  • the present invention can be applied to various RAID levels other than RAID0.
  • FIG. 12 is a diagram schematically showing a configuration example of a RAID device 30 as a modification of the embodiment of the present invention.
  • the description has been given using the RAID device 10 configured as a high-end machine, but the present invention is not limited thereto.
  • the RAID device 10 is simpler than the RAID device 10 as illustrated in FIG.
  • the RAID device 30 configured as an entry machine accessed from (here, four) hosts 31a to 31d may be used.
  • the RAID device 30 includes a plurality (four here) of drive enclosures 32a to 32d, a plurality (two here) of controller modules 33a and 33b, and a plurality (four here). It is configured as an entry machine having the channel adapters 34a to 34d.
  • the drive enclosure 32a includes a plurality (here, k; k is a natural number) of disk devices 36a-1 to 36a-k.
  • the drive enclosure 32b includes a plurality of (here, k) disk devices 36b-1 to 36b-k
  • the drive enclosure 32c includes a plurality of (here, k each) disk devices 36c-1 to 36c-k.
  • the drive enclosure 32d has a plurality of (here, k) disk devices 36d-1 to 36d-k.
  • Each of the disk devices 36a-1 to 36a-k, 36b-1 to 36b-k, 36c-1 to 36c-k, and 36d-1 to 36d-k is the same as the disk device 16 of the above-described embodiment. It has a functional configuration. Therefore, in the RAID device 30 of this modification, a plurality (here, 4 ⁇ k) of disk devices 36a-1 to 36a-k, 36b-1 to 36b-k, 36c-1 to 36c-k, 36d-1 Each of .about.36d-k functions as a storage device or a hot spare device.
  • a plurality (here, two) of storage devices 36a-1 and 36a-2 constitute a RAID group R-30 as RAID1.
  • a plurality (four in this case) of storage devices 36a-4, 36a-5, 36b-4, and 36b-5 constitute a RAID group R-31 as RAID1 + 0.
  • a plurality (four in this example) of storage devices 36b-1, 36b-2, 36c-1, and 36c-2 constitute a RAID group R-32 as RAID5.
  • a plurality (here, five) of storage devices 36d-1 to 36d-5 constitute a RAID group R-33 as RAID6.
  • the RAID device 30 of the present modification constitutes a plurality (four in this case) of RAID groups R-30 to R-33 accessed from the respective hosts 31a to 31d.
  • the controller module 33a is connected to the host 31a via the channel adapter 34a and is connected to the host 31b via the channel adapter 34b.
  • the controller module 33b is connected to the host 31c via the channel adapter 34c and is connected to the host 31d via the channel adapter 34d.
  • controller modules 33a and 33b have the same functional configuration as the controller module 13 of the above-described embodiment, detailed description thereof will be omitted.
  • the RAID device 30 as a modification of the embodiment of the present invention can also obtain the same operational effects as those of the RAID device 10 according to the embodiment described above.

Abstract

 複数の論理ボリューム毎に優先度を設定する優先度テーブル(24)と、異常発生記憶装置を検出する検出部(20)と、検出部(20)で異常発生記憶装置を検出すると、優先度テーブル(24)に設定された複数の論理ボリューム毎の優先度に基づいて、復元処理を実行するか否かを判断する判断部(22)と、判断部(22)で復元処理を実行すると判断されると、復元処理を実行する実行部(23)とをそなえることにより、RAID装置内の重要度の高いデータの冗長性を優先的に確保し、RAID装置の安全性や信頼性を高める。

Description

RAID装置並びにその制御装置および制御方法
 本発明は、複数のディスク装置を組み合わせて管理するRAID(Redundant Array of Inexpensive Disks)を制御する技術に関し、例えば、RAIDを構成するいずれかのディスク装置が故障した場合に、この故障したディスク装置のデータを復元させる技術に関する。
 一般に、HDD(Hard Disk Drive)等のようなディスク装置の故障によるデータ損失を防ぐとともに処理性能を向上するために、複数のディスク装置を組み合わせて管理するRAID(Redundant Array of Inexpensive Disks)装置が用いられている。
 従来のRAID装置においては、信頼性を向上させるために、例えば、このRAID装置を構成するいずれかのディスク装置が故障した場合に、代替機器であるホットスペアディスク(Hot Spare Disk)装置を、故障したディスク装置の代わりに割り当てて、故障したディスク装置のデータを復元させる復元処理を行なわせる手法が知られている(例えば、下記特許文献1~4参照)。
 ここで、復元処理としては、例えば、整合性論理に基づきデータを復元するリビルド(Rebuild)処理が挙げられる。
 また、例えば、RAID装置が1以上のディスク装置を組み合わせてRAIDグループ(RAID Group)を構成している場合には、故障したディスク装置を含むRAIDグループに対してホットスペアディスク装置を割り当てることにより、RAIDグループ毎にリビルド処理が実行される。
特開平07-110743号公報 特開平09-269871号公報 特開平09-330182号公報 特開2000-357061号公報
 ところで、近年のRAID装置等のディスクアレイ装置は、以前よりも装置規模が大きくなってきている。
 従って、RAID装置を構成するディスク装置の搭載本数が多くなり、RAID装置内で複数のディスク装置の故障が同時に発生しやすくなっている。又、ディスク装置単体の容量も大きくなり、復元処理に要する時間が長時間化している。
 しかしながら、上述した従来のRAID装置では、故障した順番に応じて、先に故障したディスク装置から順番にホットスペアディスク装置を割り当てている。
 従って、このように、従来のRAID装置においては、RAID装置内で複数のディスク装置の故障が同時に発生した場合や、故障した複数のディスク装置についての復元処理が実行された場合には、重要度の高いデータを保持しているディスク装置が後に故障したとしても、ホットスペアディスク装置を割り当てることができず、重要度の高いデータに対して復元処理を実行できないおそれがある。その結果、従来のRAID装置では、重要度の高いデータの冗長性を確保できないおそれがあることから、安全性や信頼性を十分に高めることができなかった。
 なお、上述した従来のRAID装置以外の他の例として、ホットスペア装置を特定のRAIDグループの専用として予め割り当てておくRAID装置(以下、他のRAID装置という場合もある)も存在する。つまり、このRAID装置は、特定のRAIDグループ内のディスク装置が故障した場合にのみ使用できる一方で、他のRAIDグループ内のディスク装置が故障した場合には使用できないようになっている。
 しかしながら、上述した他のRAID装置では、重要度の高いデータを保持しているRAIDグループのディスク装置が故障した場合に、この故障したディスク装置に対して、他のRAIDグループに予め割り当てられているホットスペアディスク装置を割り当てることができない。
 本発明は、このような課題に鑑み創案されたもので、RAID装置内の重要度の高いデータの冗長性を優先的に確保し、RAID装置の安全性や信頼性を高めることを目的とする。
 上記の目的を達成するために、開示のRAID装置は、上位装置からアクセスされる複数の論理ボリュームを構成する複数の記憶装置をそなえたRAID装置であって、前記複数の記憶装置のうちの異常が発生した異常発生記憶装置に格納されていたデータを復元可能な予備記憶装置と、該異常発生記憶装置に格納されていたデータを該予備記憶装置に復元する処理である復元処理を制御する制御部とをそなえ、該制御部は、前記複数の論理ボリューム毎に優先度を設定する優先度テーブルと、該異常発生記憶装置を検出する検出部と、該検出部で該異常発生記憶装置を検出すると、該優先度テーブルに設定された前記複数の論理ボリューム毎の優先度に基づいて、該復元処理を実行するか否かを判断する判断部と、該判断部で該復元処理を実行すると判断されると、該復元処理を実行する実行部とをそなえている。
 また、開示のRAID装置の制御装置は、上位装置からアクセスされる複数の論理ボリュームを構成する複数の記憶装置と、前記複数の記憶装置のうちの異常が発生した異常発生記憶装置に格納されていたデータを復元可能な予備記憶装置とをそなえたRAID装置に関し、該異常発生記憶装置に格納されていたデータを該予備記憶装置に復元する処理である復元処理を制御するためのRAID装置の制御装置であって、前記複数の論理ボリューム毎に優先度を設定する優先度テーブルと、該異常発生記憶装置を検出する検出部と、該検出部で該異常発生記憶装置を検出すると、該優先度テーブルに設定された前記複数の論理ボリューム毎の優先度に基づいて、該復元処理を実行するか否かを判断する判断部と、該判断部で該復元処理を実行すると判断されると、該復元処理を実行する実行部とをそなえている。
 さらに、開示のRAID装置の制御方法は、上位装置からアクセスされる複数の論理ボリュームを構成する複数の記憶装置と、前記複数の記憶装置のうちの異常が発生した異常発生記憶装置に格納されていたデータを復元可能な予備記憶装置とをそなえたRAID装置に関し、該異常発生記憶装置に格納されていたデータを該予備記憶装置に復元する処理である復元処理を制御するためのRAID装置の制御方法であって、該異常発生記憶装置を検出する検出ステップと、該検出ステップにおいて該異常発生記憶装置を検出すると、前記複数の論理ボリューム毎に優先度を設定する優先度テーブルに基づいて、該復元処理を実行するか否かを判断する判断ステップと、該判断ステップにおいて該復元処理を実行すると判断されると、該復元処理を実行する実行ステップとをそなえている。
 開示の技術によれば、論理ボリュームの優先度という概念を取り入れることで、より重要度(再構築優先度順)が高い論理ボリュームのデータの冗長性が優先して確保されるので、RAID装置内の重要度の高いデータを率先して保護することができ、RAID装置の安全性や信頼性を高めることができる。
本発明の一実施形態としてのRAID装置の構成例を模式的に示す図である。 本発明の一実施形態としてのRAID装置におけるコントローラモジュールの構成例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における管理情報格納部の構成例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における第1の動作例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における第2の動作例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における第3の動作例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における第4の動作例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における第5の動作例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における第6の動作例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における第7の動作例を模式的に示す図である。 本発明の一実施形態としてのRAID装置における動作手順を示すフローチャートである。 本発明の一実施形態の変形例としてのRAID装置の構成例を模式的に示す図である。
符号の説明
10,30 RAID装置
11,11a~11h,31a~31d ホスト(上位装置)
12,12a~12h,32a~32d ドライブエンクロージャ
13,13a~13d,33a,33b コントローラモジュール(制御部;RAID装置制御装置)
14,14a~14h,34a~34d チャンネルアダプタ
15 ルータ
16,16a-1~16a-5,16b-1~16b-5,16c-1~16c-5,16d-1~16d-5,16e-1~16e-5,16f-1~16f-5,16g-1~16g-5,16h-1~16h-5 ディスク装置(記憶装置;異常発生記憶装置)
16,16a-n,16b-n,16c-n,16d-n,16e-n,16f-n,16g-n,16h-n ディスク装置(ホットスペア装置;予備記憶装置;特定ホットスペア装置;特定予備記憶装置)
17 管理情報格納部
18 受信部
19 設定部
20 検出部
21 特定部
22 判断部
23 実行部
24 管理テーブル(優先度テーブル;状態テーブル)
36a-1~36a-k,36b-1~36b-k,36c-1~36c-k,36d-1~36d-k ディスク装置
d1 RAIDグループ番号
d2 RAIDレベル
d3 RAIDグループ状態
d4 ブロックサイズ
d5 ボリューム
d6 ディスク
d7 再構築優先度
R,R-0~R-4,R1,R2,R-30~R-33 RAIDグループ(論理ボリューム)
P,P-0~P-4 優先度
P1 第1の優先度
P2 第2の優先度
 以下、図面を参照しながら本発明の実施の形態について説明する。
 〔1〕本発明の一実施形態の説明
 図1は本発明の一実施形態としてのRAID(Redundant Array of Inexpensive Disks)装置10の構成例を模式的に示す図である。
 本実施形態に係るRAID装置10は、複数(ここでは8個)のホスト(上位装置)11a~11hからアクセスされることにより、データの書き込みおよび読み出しを行なうものである。
 このRAID装置10は、例えば、図1に示すように、複数(ここでは8個)のドライブエンクロージャ(DE;Drive Enclosure)12a~12h,複数(ここでは4個)のコントローラモジュール(CM;Controller Module;制御部;制御装置)13a~13d,複数(ここでは8個)のチャンネルアダプタ(CA;Channel Adapter)14a~14hおよびルータ(RT;Router)15をそなえて構成されたハイエンド機である。
 なお、以下、ホストを示す符号としては、複数のホストのうち1つを特定する必要があるときは符号11a~11hを用いるが、任意のホストを指すときには符号11を用いる。
 また、以下、ドライブエンクロージャを示す符号としては、複数のドライブエンクロージャのうち1つを特定する必要があるときは符号12a~12hを用いるが、任意のドライブエンクロージャを指すときには符号12を用いる。
 さらに、以下、コントローラモジュールを示す符号としては、複数のコントローラモジュールのうち1つを特定する必要があるときは符号13a~13dを用いるが、任意のコントローラモジュールを指すときには符号13を用いる。
 また、以下、チャンネルアダプタを示す符号としては、複数のチャンネルアダプタのうち1つを特定する必要があるときは符号14a~14hを用いるが、任意のチャンネルアダプタを指すときには符号14を用いる。
 ドライブエンクロージャ12は、複数のディスク装置16をそなえるものである。ここで、ディスク装置16は、例えば、HDD(Hard Disk Drive)や半導体ディスクにより実現される。
 図1に示す例では、ドライブエンクロージャ12aが、複数(ここではn個;nは自然数)のディスク装置16a-1~16a-nをそなえている。
 以下同様に、ドライブエンクロージャ12bが複数(ここではn個)のディスク装置16b-1~16b-nを、ドライブエンクロージャ12cが複数(ここではn個)のディスク装置16c-1~16c-nを、ドライブエンクロージャ12dが複数(ここではn個)のディスク装置16d-1~16d-nを、それぞれそなえている。又、ドライブエンクロージャ12eが複数(ここではn個)のディスク装置16e-1~16e-nを、ドライブエンクロージャ12fが複数(ここではn個)のディスク装置16f-1~16f-nを、それぞれそなえている。更に、ドライブエンクロージャ12gが複数(ここではn個)のディスク装置16g-1~16g-nを、ドライブエンクロージャ12hが複数(ここではn個)のディスク装置16h-1~16h-nを、それぞれそなえている。
 なお、以下、ディスク装置を示す符号としては、複数のディスク装置のうち1つを特定する必要があるときは符号16a-1~16a-n,16b-1~16b-n,16c-1~16c-n,16d-1~16d-n,16e-1~16e-n,16f-1~16f-n,16g-1~16g-n,16h-1~16h-nを用いるが、任意のディスク装置を指すときには符号16を用いる。なお、図1中における符号16の図示については便宜上省略する。又、各ドライブエンクロージャ12にそなえられるディスク装置16の数については、本実施形態に限定されず、例えば、ドライブエンクロージャ12毎に異なる数のディスク装置16をそなえていてもよい。
 また、ディスク装置16は、例えば、記憶装置またはホットスペア(Hot Spare Disk;HS)装置(予備記憶装置;ホットスペアディスク)として機能するようになっている。
 図1に示す例では、ドライブエンクロージャ12aにおいて、複数(ここでは5個)のディスク装置16a-1~16a-5がそれぞれ記憶装置として機能するとともに、少なくともディスク装置16a-nがホットスペア装置として機能するようになっている。又、各ドライブエンクロージャ12bにおいて、複数(ここでは5個)のディスク装置16b-1~16b-5が記憶装置として機能するとともに、少なくともディスク装置16b-nがホットスペア装置として機能するようになっている。
 以下、各ドライブエンクロージャ12c~12hにおいても、複数(ここでは6×n個)のディスク装置16c-1~16c-n,16d-1~16d-n,16e-1~16e-n,16f-1~16f-n,16g-1~16g-n,16h-1~16h-nのそれぞれが、記憶装置またはホットスペア装置として機能するようになっている。
 なお、以下の説明においては、記憶装置およびホットスペア装置を示す符号として、ディスク装置と同じ符号(例えば、符号16)を用いるものとする。
 ここで、記憶装置16は、ホスト11からアクセスされるデータの書き込みおよび読み出しを行なうものである。又、ホットスペア装置16は、複数(図1に示す例では8×n個)のディスク装置16a-1~16h-nのうちの異常(ディスク故障)が発生した記憶装置(以下、異常発生記憶装置という場合もある)16に格納されていたデータを復元可能なものである。つまり、ホットスペア装置16は、記憶装置16の代替機器としての予備ディスクである。
 さらに、記憶装置16は、当該記憶装置16以外の他の1以上の記憶装置16との組み合わせにより、ホスト11からアクセスされるRAIDグループ(RAID Group;論理ボリューム)Rを構成するようになっている。
 具体的には、図1に示すように、複数(ここでは2個)の記憶装置16a-2,16b-2がRAIDグループR-0を構成している。又、複数(ここでは4個)の記憶装置16e-2,16f-2,16g-2,16h-2がRAIDグループR-1を構成している。更に、複数(ここでは8個)の記憶装置16a-1~16h-1がRAIDグループR-2を構成している。又、複数(ここでは8個)の記憶装置16a-3~16h-3がRAIDグループR-3を構成している。更に、複数(ここでは16個)の記憶装置16a-4~16h-4,16a-5~16h-5がRAIDグループR-4を構成している。
 そして、図1に示すように、RAIDグループR-0のRAIDレベルはRAID1であり、RAIDグループR-1のRAIDレベルはRAID1+0である。又、RAIDグループR-2のRAIDレベルはRAID5であり、RAIDグループR-3のRAIDレベルはRAID6であり、RAIDグループR-4のRAIDレベルはRAID6である。
 従って、本実施形態におけるRAID装置10は、ホスト13からアクセスされる複数(ここでは5個)のRAIDグループR-0~R-4を構成するのである。
 なお、以下、RAIDグループを示す符号としては、複数のRAIDグループのうち1つを特定する必要があるときは符号R-0~R-4を用いるが、任意のRAIDグループを指すときには符号Rを用いる。
 コントローラモジュール13は、異常発生記憶装置16に格納されていたデータをホットスペア装置16に復元するリビルド(Rebuild)処理(復元処理)を制御するものである。ここで、リビルド処理とは、整合性論理に基づきデータを復元する処理を実行するものである。具体的には、例えば、リビルド処理とは、異常発生記憶装置16に格納されていたデータを他の1以上のディスク装置16のデータに基づいてホットスペア装置16に復元させることにより、RAIDグループRの冗長性を復活させることが可能なものである。なお、コントローラモジュール13の機能については後述する。
 このコントローラモジュール13は、チャンネルアダプタ14を介して1以上(図1に示す例では2個)のホスト11と接続されている。
 図1に示す例では、コントローラモジュール13aは、チャンネルアダプタ14aを介してホスト11aと接続されるとともに、チャンネルアダプタ14bを介してホスト11bと接続されている。以下、同様に、コントローラモジュール13bは、チャンネルアダプタ14cを介してホスト11cと接続されるとともに、チャンネルアダプタ14dを介してホスト11dと接続されている。又、コントローラモジュール13cは、チャンネルアダプタ14eを介してホスト11eと接続されるとともに、チャンネルアダプタ14fを介してホスト11fと接続されている。更に、コントローラモジュール13dは、チャンネルアダプタ14gを介してホスト11gと接続されるとともに、チャンネルアダプタ14hを介してホスト11hと接続されている。
 ルータ15は、コントローラモジュール13とドライブエンクロージャ12との間においてデータを中継するものである。図1に示す例では、ルータ15は、各コントローラモジュール13a~13dに接続されるとともに、各ドライブエンクロージャ12a~12hに接続されている。
 以下、コントローラモジュール13の機能について詳述する。
 図2は本発明の一実施形態としてのRAID装置10におけるコントローラモジュール13の構成例を模式的に示す図、図3はその管理情報格納部17の構成例を模式的に示す図である。
 コントローラモジュール13は、図2に示すように、管理情報格納部17,受信部18,設定部19,検出部20,特定部21,判断部22および実行部23をそなえて構成されている。
 管理情報格納部17は、図3に示すような管理テーブル24を格納するものであり、メモリ等の記憶部(図示省略)により実現される。
 管理テーブル24は、ディスク装置16の制御に関する管理情報をRAIDグループR-0~R-4毎に保持するものである。ここで、管理情報は、例えば、図3に示すように、RAIDグループ番号d1,RAIDレベルd2,RAIDグループ状態d3,ブロックサイズd4,ボリュームd5,ディスクd6および再構築優先度d7をそなえている。
 RAIDグループ番号d1は、RAIDグループRのシリアル番号を示すものである。本実施形態においては、RAIDグループ番号d1は、複数のRAIDグループR-0~R-4のシリアル番号、例えば、“R-0”,“R-1”,“R-2”,“R-3”および“R-4”を並べて示すようになっている。なお、RAIDグループ番号d1については、本実施形態に限定されず、他の識別用の情報を用いることができる。
 RAIDレベルd2は、RAIDグループ番号d1で示されたRAIDグループRのRAIDレベルを示すものである。本実施形態においては、RAIDレベルd2は、“RAID0”,“RAID1”,“RAID1+0”,“RAID2”,“RAID3”,“RAID4”,“RAID5”および“RAID6”のうちいずれかのRAIDレベルを選択的に示すようになっている。なお、RAIDレベルは既知であるので、その詳細な説明を省略する。
 そして、RAIDレベルd2は、複数のRAIDグループR-0~R-4のそれぞれのRAIDレベルを、RAIDグループ番号d1で示された各RAIDグループR-0~R-4のそれぞれに対応するように(RAIDグループR-0~R-4毎に)示すようになっている。
 図3に示す例では、RAIDレベルd2は、RAIDグループR-0に対応して“RAID1”を示している。以下同様に、RAIDレベルd2は、RAIDグループR-1に対応して“RAID1+0”を、RAIDグループR-2に対応して“RAID5”を、RAIDグループR-3に対応して“RAID6”を、RAIDグループR-4に対応して“RAID6”を、それぞれ示している。
 RAIDグループ状態d3は、RAIDグループ番号d1で示されたRAIDグループRの状態(状態情報)を示すものである。ここで、RAIDグループRの状態とは、RAIDグループRにおける異常(故障)や冗長性に関する状態のことである。ここで、冗長性とは、例えば、複数のディスク装置16に同じデータが書き込まれていたりパリティが書き込まれていたりすることをいう。
 本実施形態においては、RAIDグループ状態d3は、RAIDグループRの状態として、“Available”,“Exposed”,“Rebuild”,“SpareInUse”,“Copyback”および“Broken”のいずれかを選択的に示すようになっている。
 ここで、“Available”は、対応するRAIDグループRが全く正常な状態であり、対応するRAIDグループRに冗長性がある状態を指す。“Exposed”は、ディスク単体故障等により、対応するRAIDグループRを構成するいずれかのディスク装置16に冗長性がない状態(例えば、冗長度が0となる数のディスクが故障した状態)を指す。“Rebuild”は、対応するRAIDグループRがリビルド処理中の状態であり、対応するRAIDグループRについて部分的にしか冗長性がない状態を指す。“SpareInUse”は、対応するRAIDグループRが、ホットスペア装置16に対してリビルド処理後の状態であり、対応するRAIDグループRに冗長性がある状態を指す。“Copyback”は、対応するRAIDグループRが、交換したディスク装置16へのコピーバック(Copyback)中の状態であり、対応するRAIDグループRに冗長性がある状態を指す。“Broken”は、対応するRAIDグループRを構成する複数のディスク装置16において、冗長度を超えた数のディスクが故障した状態であり、データを失った状態を指す。
 そして、RAIDグループ状態d3は、複数のRAIDグループR-0~R-4のそれぞれの状態を、RAIDグループ番号d1で示された各RAIDグループR-0~R-4のそれぞれに対応するように(RAIDグループR-0~R-4毎に)並べて示すようになっている。即ち、管理テーブル24は、RAIDグループRの冗長性に関する状態情報を複数のRAIDグループR-0~R-4毎に記憶する状態テーブルとして機能するのである(以下、状態テーブル24という場合もある)。
 ブロックサイズd4は、RAIDグループ番号d1で示された各RAIDグループR-0~R-4の容量を示すものである。ボリュームd5は、RAIDグループ番号d1で示された各RAIDグループR-0~R-4に設定したホストボリューム(任意個)を示すものである。ディスクd6は、RAIDグループ番号d1で示された各RAIDグループR-0~R-4を構成するディスク(複数本)の種類を示すものである。
 なお、これらのRAIDグループ状態d3,ブロックサイズd4,ボリュームd5およびディスクd6についての詳細な図示については、便宜上省略する。
 再構築優先度d7は、RAIDグループ番号d1で示されたRAIDグループRの優先度(再構築優先度)Pを示すものである。ここで、再構築優先度Pとは、RAIDグループRを構成するいずれかの記憶装置16に異常が発生した場合に冗長性を確保しなければならない優先順位のことである。本実施形態においては、再構築優先度d7は、値“0”を最低の優先度Pとして、値“0”~“4”の5段階の優先度Pを選択的に示すようになっている。又、本実施形態においては、再構築優先度d7は、後述する設定部19により設定されるようになっている。
 そして、再構築優先度d7は、複数のRAIDグループR-0~R-4のそれぞれについての優先度P-0~P-4を、RAIDグループ番号d1で示された各RAIDグループR-0~R-4のそれぞれに対応するように(RAIDグループR-0~R-4毎に)示すようになっている。
 図3に示す例では、再構築優先度d7は、RAIDグループR-0の優先度P-0として値“4”を示している。以下同様に、再構築優先度d7は、RAIDグループR-1の優先度P-1として値“3”を、RAIDグループR-2の優先度P-2として値“2”を、RAIDグループR-3の優先度P-3として値“1”を、RAIDグループR-4の優先度P-4として値“0”を、それぞれ示している。
 即ち、管理テーブル24は、複数のRAIDグループR-0~R-4毎に優先度P-0~P-4を設定する優先度テーブルとして機能するのである(以下、優先度テーブル24という場合もある)。
 なお、以下、優先度を示す符号としては、複数の優先度のうち1つを特定する必要があるときは符号P-0~P-4を用いるが、任意の優先度を指すときには符号Pを用いる。
 受信部18は、優先度Pに関する優先度情報(図示省略)を受信するものである。この受信部18は、例えば、ユーザがホスト11やRAID装置10のキーボード等の入力装置(入力部;図示省略)に優先度情報を入力すると、この入力装置から優先度情報を受信するようになっている。なお、本実施形態においては、ユーザは、RAIDグループRに含まれるデータの重要度に基づいて、任意の優先度情報を入力装置に入力するようになっている。
 設定部19は、受信部18で受信した優先度情報を管理テーブル24に設定するものであり、CPU(Central Processing Unit)等の処理部(図示省略)により実現される。従って、優先度情報は、RAIDグループRに含まれるデータの重要度に基づいて優先度テーブル24に設定されるといえる。
 検出部20は、異常発生記憶装置16を検出するものであり、CPU等の処理部(図示省略)により実現される。この検出部20は、既知の種々の検出手法を用いて実現することができる。
 特定部21は、複数のホットスペア装置(例えば、図1に示す符号“16a-n”および“16b-n”参照)のうちいずれかのホットスペア装置16を特定ホットスペア装置(特定予備記憶装置)として特定するものであり、CPU等の処理部(図示省略)により実現される。
 この特定部21は、複数のホットスペア装置16の全てが使用中もしくはリビルド処理中である場合に、使用中である複数のホットスペア装置16の中から特定ホットスペア装置を特定するようになっている。
 なお、特定部21の具体的な動作例については後述する。
 判断部22は、検出部20で異常発生記憶装置16を検出すると、管理テーブル24に設定された複数のRAIDグループR-0~R-4毎の再構築優先度d7に基づいて、リビルド処理を実行するか否かを判断するものであり、CPU等の処理部(図示省略)により実現される。
 また、判断部22は、ホットスペア装置16が使用中である場合に、第1の優先度P1と第2の優先度P2とを比較して、特定ホットスペア装置16に対してリビルド処理を実行するか否かを判断するようになっている。
 ここで、第1の優先度P1とは、異常発生記憶装置16を含むRAIDグループ(異常発生論理ボリューム)Rに設定されている優先度Pである。又、第2の優先度P2とは、特定ホットスペア装置16を含むRAIDグループ(使用中論理ボリューム)Rに設定されている優先度Pである。
 さらに、判断部22は、第1の優先度P1が優先度テーブル24に設定された優先度Pの中で最も低い場合には、リビルド処理を実行しないと判断するようになっている。
 実行部23は、判断部22でリビルド処理を実行すると判断されると、特定ホットスペア装置16に対して、異常発生記憶装置16のデータについてのリビルド処理を実行するものであり、CPU等の処理部(図示省略)により実現される。
 また、この実行部23は、複数のホットスペア装置16の全てが使用中である場合に、判断部22でリビルド処理を実行すると判断されると、特定ホットスペア装置16を、使用中であるRAIDグループRから切り離して、この切り離した特定ホットスペア装置16に対してリビルド処理を実行するようになっている。
 以下、本発明の一実施形態としてのRAID装置10における第1~第7の動作例について説明する。
 図4は本発明の一実施形態としてのRAID装置における第1の動作例を模式的に示す図である。図5はその第2の動作例を模式的に示す図、図6はその第3の動作例を模式的に示す図、図7はその第4の動作例を模式的に示す図である。図8はその第5の動作例を模式的に示す図、図9はその第6の動作例を模式的に示す図、図10はその第7の動作例を模式的に示す図である。
 (1)第1の動作例
 以下、図4を参照しながら、本発明の一実施形態としてのRAID装置10における第1の動作例について説明する。
 図4に示す例では、RAID装置10においては、RAID装置10内のホットスペア装置16a-n,16b-nが未使用の状態である。
 この状態で、RAIDグループR-2を構成する記憶装置16c-1に異常が発生すると、検出部20は、記憶装置16c-1を異常発生記憶装置として検出する(ディスク故障;図4の符号“A1”参照)。
 特定部21は、管理テーブル(優先度テーブル)24を参照することにより、異常発生記憶装置16c-1を含むRAIDグループR-2の優先度P-4の値“2”が、優先度テーブル24に設定された優先度Pの中で最も低い値“0”ではないと判定する。そして、特定部21は、未使用である複数のホットスペア装置16a-n,16b-nの中からホットスペア装置16a-nを特定ホットスペア装置として特定する。
 判断部22は、特定部21で特定された特定ホットスペア装置16a-nが未使用であるので、優先度の比較を行なわずに、特定ホットスペア装置16a-nに対してリビルド処理を実行すると判断する。
 そして、実行部23は、特定ホットスペア装置16a-nに対して、記憶装置16c-1のデータについてのリビルド処理を実行する(HS割り当て;図4の符号“A2”参照)。
 従って、RAID装置10は、異常発生記憶装置16を含むRAIDグループRの優先度Pが優先度テーブル24に設定された優先度Pの中で最も低い値ではなく、未使用のホットスペア装置16が存在する場合には、優先度の比較を行なわずに、異常発生記憶装置16を未使用のホットスペア装置16に付け替えるのである。
 (2)第2の動作例
 以下、図5を参照しながら、本発明の一実施形態としてのRAID装置10における第2の動作例について説明する。
 図5に示す例では、RAID装置10においては、RAID装置10内の全てのホットスペア装置16が使用中の状態である。
 この状態で、RAIDグループR-1を構成する記憶装置16g-2に異常が発生すると、検出部20は、記憶装置16g-2を異常発生記憶装置として検出する(ディスク故障;図5の符号“B1”参照)。
 特定部21は、管理テーブル(優先度テーブル)24を参照することにより、異常発生記憶装置16g-2を含むRAIDグループR-1の優先度P-1の値“3”が、優先度テーブル24に設定された優先度Pの中で最も低い値“0”ではないと判定する。又、特定部21は、管理テーブル(状態テーブル)24を参照することにより、ホットスペア装置16a-nを使用しているRAIDグループR-2の状態が“SpareInUse”であると判定する。更に、特定部21は、管理テーブル(状態テーブル)24を参照することにより、ホットスペア装置16b-nを使用しているRAIDグループR-3の状態が“SpareInUse”であると判定する。そして、特定部21は、使用中である全てのホットスペア装置(図5に示す例では、ホットスペア装置16a-n,16b-n)の中から、最も優先度の低いRAIDグループR-3に含まれるホットスペア装置16b-nを特定ホットスペア装置として特定する。
 判断部22は、異常発生記憶装置16g-2を含むRAIDグループR-1に設定されている優先度R-1の値“3”と特定ホットスペア装置16b-nを含むRAIDグループR-3に設定されている優先度P-3の値“1”とを比較する。
 比較の結果、判断部22は、優先度P-1の値“3”が優先度P-3の値“1”よりも高いので、特定ホットスペア装置16b-nに対してリビルド処理を実行すると判断する。
 そして、実行部23は、特定ホットスペア装置16b-nを使用中であるRAIDグループR-3から切り離して(HS切り離し;図5の符号“B2”参照)、特定ホットスペア装置16b-nに対して、記憶装置16g-2のデータについてのリビルド処理を実行する(HS割り当て;図5の符号“B3”参照)。
 従って、RAID装置10は、ホットスペア装置16が使用中であって、異常発生記憶装置16を含むRAIDグループRの優先度Pが優先度テーブル24に設定された優先度Pの中で最も低い値ではない場合には、異常発生記憶装置16を、低優先度であって冗長性を有するRAIDグループRにおいて使用中のホットスペア装置16に付け替えるのである。
 (3)第3の動作例
 以下、図6を参照しながら、本発明の一実施形態としてのRAID装置10における第3の動作例について説明する。
 図6に示す例では、RAID装置10においては、RAID装置10内の全てのホットスペア装置16が使用中であり、且つ、ホットスペア装置16b-nが低優先度であるRAIDグループR-3においてリビルド処理中の状態である(リビルド中;図6の符号“C1”参照)。これにより、管理テーブル(状態テーブル)24において、RAIDグループR-3のRAIDグループ状態d3が“Rebuild”に設定されている。
 この状態で、RAIDグループR-1を構成する記憶装置16g-2に異常が発生すると、検出部20は、記憶装置16g-2を異常発生記憶装置として検出する(ディスク故障;図6の符号“C2”参照)。
 特定部21は、管理テーブル(優先度テーブル)24を参照することにより、異常発生記憶装置16g-2を含むRAIDグループR-1の優先度P-1の値“3”が、優先度テーブル24に設定された優先度Pの中で最も低い値“0”ではないと判定する。又、特定部21は、管理テーブル(状態テーブル)24を参照することにより、ホットスペア装置16a-nを使用しているRAIDグループR-2の状態が“SpareInUse”であると判定する。更に、特定部21は、管理テーブル(状態テーブル)24を参照することにより、ホットスペア装置16b-nを使用しているRAIDグループR-3の状態が“Rebuild”であると判定する。そして、特定部21は、使用中もしくはリビルド処理中である全てのホットスペア装置(図6に示す例では、ホットスペア装置16a-n,16b-n)の中から、冗長性があり且つ最も優先度の低いRAIDグループR-3に含まれるホットスペア装置16b-nを特定ホットスペア装置として特定する。つまり、特定部21は、管理テーブル(優先度テーブルおよび状態テーブル)24に基づいて、複数のホットスペア装置16の中から、冗長性があり且つ最も優先度Pの低いRAIDグループRに含まれるホットスペア装置16を特定ホットスペア装置として特定するのである。
 判断部22は、異常発生記憶装置16g-2を含むRAIDグループR-1に設定されている優先度P-1の値“3”と特定ホットスペア装置16b-nを含むRAIDグループR-3に設定されている優先度P-3の値“1”とを比較する。
 比較の結果、判断部22は、優先度P-1の値“3”が優先度P-3の値“1”よりも高いので、特定ホットスペア装置16b-nに対してリビルド処理を実行すると判断する。
 そして、実行部23は、特定ホットスペア装置16b-nをRAIDグループR-3から切り離して(HS切り離し;図6の符号“C3”参照)、特定ホットスペア装置16b-nに対して、記憶装置16g-2のデータについてのリビルド処理を実行する(HS割り当て;図6の符号“C4”参照)。
 従って、RAID装置10は、ホットスペア装置16が使用中もしくはリビルド処理中であって、異常発生記憶装置16を含むRAIDグループRの優先度Pが優先度テーブル24に設定された優先度Pの中で最も低い値ではない場合には、異常発生記憶装置16を、低優先度であるRAIDグループRにおいて使用中もしくはリビルド処理中のホットスペア装置16に付け替えるのである。
 (4)第4の動作例
 以下、図7を参照しながら、本発明の一実施形態としてのRAID装置10における第4の動作例について説明する。
 図7に示す例では、RAID装置10においては、RAID装置10内の全てのホットスペア装置16が使用中であり、且つ、記憶装置16h-3の故障により、ホットスペア装置16を使用中のRAIDグループR-0~R-4の中で最も低優先度であるRAIDグループR-3に冗長性が無い状態である(既にディスクが故障し、冗長性を失っている状態;図7の符号“D1”参照)。
 この状態で、RAIDグループR-1を構成する記憶装置16g-2に異常が発生すると、検出部20は、記憶装置16g-2を異常発生記憶装置として検出する(ディスク故障;図7の符号“D2”参照)。
 特定部21は、管理テーブル(優先度テーブル)24を参照することにより、異常発生記憶装置16g-2を含むRAIDグループR-1の優先度P-1の値“3”が、優先度テーブル24に設定された優先度Pの中で最も低い値“0”ではないと判定する。又、特定部21は、管理テーブル(状態テーブル)24を参照することにより、ホットスペア装置16a-nを使用しているRAIDグループR-2の状態が“SpareInUse”であると判定する。更に、特定部21は、管理テーブル(状態テーブル)24を参照することにより、ホットスペア装置16b-nを使用しているRAIDグループR-3の状態が“Exposed”であると判定する。そして、特定部21は、使用中もしくはリビルド処理中である全てのホットスペア装置(図7に示す例では、ホットスペア装置16a-n,16b-n)の中から、冗長性があり且つ最も優先度の低いRAIDグループR-2に含まれるホットスペア装置16a-nを特定ホットスペア装置として特定する。
 判断部22は、異常発生記憶装置16g-2を含むRAIDグループR-1に設定されている優先度P-1の値“3”と特定ホットスペア装置16a-nを含むRAIDグループR-2に設定されている優先度P-2の値“2”とを比較する。
 比較の結果、判断部22は、優先度P-1の値“3”が優先度P-2の値“2”よりも高いので、特定ホットスペア装置16a-nに対してリビルド処理を実行すると判断する。
 そして、実行部23は、特定ホットスペア装置16a-nをRAIDグループR-2から切り離して(HS切り離し;図7の符号“D3”参照)、特定ホットスペア装置16a-nに対して、記憶装置16g-2のデータについてのリビルド処理を実行する(HS割り当て;図7の符号“D4”参照)。
 従って、RAID装置10は、ホットスペア装置16が使用中であって、異常発生記憶装置16を含むRAIDグループRの優先度Pが優先度テーブル24に設定された優先度Pの中で最も低い値ではなく、ホットスペア装置16を使用中のRAIDグループRの中で最も低優先度であるRAIDグループRに冗長性が無い場合には、異常発生記憶装置16を、ホットスペア装置16を使用中であって冗長性を有するRAIDグループRの中で最も低優先度であるRAIDグループRにおいて使用中のホットスペア装置16に付け替えるのである。
 (5)第5の動作例
 以下、図8を参照しながら、本発明の一実施形態としてのRAID装置10における第5の動作例について説明する。
 図8に示す例では、RAID装置10においては、RAID装置10内の全てのホットスペア装置16がRAIDグループR-3において使用中であり、且つ、RAIDグループR-3内の1以上の記憶装置(図8に示す例では、記憶装置16h-3)の故障によりRAIDグループR-3に冗長性が無い状態である(既にディスクが故障し、冗長性を失っている状態;図8の符号“E1”参照)。
 この状態で、RAIDグループR-1を構成する記憶装置16g-2に異常が発生すると、検出部20は、この記憶装置16g-2を異常発生記憶装置として検出する(ディスク故障;図8の符号“E2”参照)。
 特定部21は、管理テーブル(優先度テーブル)24を参照することにより、異常発生記憶装置16g-2を含むRAIDグループR-1の優先度P-1の値“3”が、優先度テーブル24に設定された優先度Pの中で最も低い値“0”ではないと判定する。又、特定部21は、管理テーブル(状態テーブル)24を参照することにより、ホットスペア装置16a-nを使用しているRAIDグループR-2の状態が“Exposed”であると判定する。従って、特定部21は、RAID装置10内の全てのホットスペア装置を使用中のRAIDグループR-3に冗長性が無いので、特定ホットスペア装置を特定しない。
 そして、特定部21が特定ホットスペアを特定しないので、判断部22は、リビルド処理を実行しないと判断し、実行部23は、記憶装置16g-2のデータについてのリビルド処理を実行せずに、動作を終了する(HS関する動作無し;図8の符号“E3”参照)。
 従って、RAID装置10は、全てのホットスペア装置16がRAIDグループRにおいて使用中であり、且つ、ホットスペア装置16を使用している全てのRAIDグループRに冗長性が無い場合には、リビルド処理を行なわず、異常発生記憶装置16が交換されるのを待つのである。
 (6)第6の動作例
 以下、図9を参照しながら、本発明の一実施形態としてのRAID装置10における第6の動作例について説明する。
 図9に示す例では、RAID装置10においては、RAID装置10内の全てのホットスペア装置16がRAIDグループR-0において使用中の状態である。
 この状態で、RAIDグループR-1を構成する記憶装置16g-2に異常が発生すると、検出部20は、この記憶装置16g-2を異常発生記憶装置として検出する(ディスク故障;図9の符号“F1”参照)。
 特定部21は、管理テーブル(優先度テーブル)24を参照することにより、異常発生記憶装置16g-2を含むRAIDグループR-1の優先度P-1の値“3”が、優先度テーブル24に設定された優先度Pの中で最も低い値“0”ではないと判定する。又、特定部21は、管理テーブル(状態テーブル)24を参照することにより、ホットスペア装置16a-nを使用しているRAIDグループR-0の状態が“SpareInUse”であると判定する。そして、特定部21は、RAID装置10内の全てのホットスペア装置をRAIDグループR-0において使用中であるので、最も優先度Pの低いRAIDグループR-0に含まれるホットスペア装置16a-nを特定ホットスペア装置として特定する。
 判断部22は、異常発生記憶装置16g-2を含むRAIDグループR-1に設定されている優先度P-1の値“3”と特定ホットスペア装置16a-nを含むRAIDグループR-0に設定されている優先度P-0の値“4”とを比較する。
 比較の結果、判断部22は、優先度P-1の値“3”が優先度P-0の値“4”よりも低いので、特定ホットスペア装置16a-nに対してリビルド処理を実行しないと判断する。
 そして、判断部22がリビルド処理を実行しないと判断するので、実行部23は、記憶装置16g-2のデータについてのリビルド処理を実行せずに、動作を終了する(HS関する動作無し;図9の符号“F2”参照)。
 従って、RAID装置10は、全てのホットスペア装置が、異常発生記憶装置16を含むRAIDグループRよりも高い優先度であるRAIDグループRにおいて使用されている場合には、リビルド処理を行なわず、異常発生記憶装置16が交換されるのを待つのである。
 (7)第7の動作例
 以下、図10を参照しながら、本発明の一実施形態としてのRAID装置10における第7の動作例について説明する。
 図10に示す例では、RAID装置10においては、RAID装置10内のホットスペア装置16a-n,16b-nが未使用の状態である。
 この状態で、RAIDグループR-4を構成する記憶装置16c-4に異常が発生すると、検出部20は、記憶装置16c-4を異常発生記憶装置として検出する(ディスク故障;図10の符号“G1”参照)。
 特定部21は、管理テーブル(優先度テーブル)24を参照することにより、異常発生記憶装置16c-4を含むRAIDグループR-4の優先度P-4の値が、優先度テーブル24に設定された優先度Pの中で最も低い値“0”であると判定する。従って、特定部21は、特定ホットスペア装置を特定せず、判断部22は、リビルド処理を実行しないと判断する。
 そして、判断部22がリビルド処理を実行しないと判断するので、実行部23は、記憶装置16c-4のデータについてのリビルド処理を実行せずに、動作を終了する(HS関する動作無し;図10の符号“G2”参照)。
 従って、RAID装置10は、異常発生記憶装置16を含むRAIDグループRの優先度Pが最低である場合には、未使用のホットスペア装置16が存在するか否かに関わらず、リビルド処理を行なわず、異常発生記憶装置16が交換されるのを待つのである。
 上述の如く構成された本発明の一実施形態に係るRAID装置10における動作手順を、図11に示すフローチャート(ステップS11~S17)に従って説明する。
 なお、図11では、異常が発生した記憶装置16を含むRAIDグループをR1と示し、そのRAIDグループR1の優先度である第1の優先度をP1と示している。又、特定ホットスペア装置を使用中のRAIDグループをR2と示し、そのRAIDグループR2の優先度である第2の優先度をP2と示している。
 先ず、RAID装置10を構成するいずれかのRAIDグループRでディスク装置16に異常が発生すると、検出部20は、異常発生記憶装置16を検出する(検出ステップ)。
 そして、特定部21は、第1の優先度P1が優先度テーブル24に設定された優先度Pの中で最低の優先度であるか否かを判断する(ステップS11)。
 判断の結果、優先度P1が最低の優先度である場合には(ステップS11の“YES”ルート参照)、特定部21は、特定ホットスペア装置を特定せず、判断部22は、リビルド処理を実行しないと判断する。そして、判断部22がリビルド処理を実行しないと判断するので、実行部23は、ディスク装置16のデータについてのリビルド処理を実行せずに、処理を終了する。
 一方、優先度P1が最低の優先度ではない場合には(ステップS11の“NO”ルート参照)、特定部21は、RAID装置10内に未使用のホットスペア装置16が存在するか否かを判断する(ステップS12)。
 判断の結果、RAID装置10内に未使用のホットスペア装置16が存在する場合には(ステップS12の“YES”ルート参照)、特定部21は、未使用のホットスペア装置16を特定ホットスペア装置16として特定する(特定ステップ)。判断部22は、特定部21で特定された特定ホットスペア装置16が未使用であるので、優先度の比較を行なわずに、特定ホットスペア装置16に対してリビルド処理を実行すると判断する(判断ステップ)。そして、実行部23は、未使用である特定ホットスペア装置16をRAIDグループR1に割り当てて、異常が発生したディスク装置16のデータについてのリビルド処理を実行し(ステップS13;実行ステップ)、処理を終了する。
 一方、RAID装置10内の全てのホットスペア装置16が使用中である場合には(ステップS12の“NO”ルート参照)、特定部21は、ホットスペア装置16を使用中の状態で冗長性があるRAIDグループRと、ホットスペア装置16に対してリビルド処理中であるRAIDグループRとを管理テーブル(状態テーブル)24を用いて検索し、これらの検索された全てのRAIDグループR-0~R-4の中で最も優先度の低いRAIDグループR2を管理テーブル(優先度テーブル)24を用いて選び出す(ステップS14;特定ステップ)。
 そして、判断部22は、特定部21で選び出されたRAIDグループR2の優先度である第2の優先度P2と異常が発生したRAIDグループR1の優先度である第1の優先度P1との比較を行なう(ステップS15;判断ステップ)。
 比較の結果、第1の優先度P1が第2の優先度P2よりも低いか同じである場合には(ステップS15の“NO”ルート参照)、実行部23は、リビルド処理を行なわず、処理を終了する。そして、RAID装置10は、故障した記憶装置16が交換されるのを待つことになる。
 一方、第1の優先度P1が第2の優先度P2よりも高い場合には(ステップS15の“YES”ルート参照)、実行部23は、RAIDグループR2のホットスペア装置16を切り離して、当該RAIDグループR2の冗長性を強制的に落とす処理を実行する(ステップS16;実行ステップ)。
 そして、実行部23は、切り離したホットスペア装置16を、RAIDグループR1に割り当てて(組み込んで)リビルド処理を開始し(ステップS17;実行ステップ)、処理を終了する。
 これにより、より優先度Pが高いRAIDグループRのデータの冗長性が優先的に確保されるのである。
 このように、本発明の一実施形態としてのRAID装置10によれば、未使用のホットスペア装置16が存在せず、異常発生記憶装置16を含むRAIDグループRの優先度Pが優先度テーブル24において最低優先度ではない場合に、ホットスペア装置16を使用中もしくはリビルド処理中であって冗長性を有するRAIDグループRの中で最も低優先度であるRAIDグループRにおいて使用中のホットスペア装置16に対して、リビルド処理を実行すると判断する。一方、RAID装置10は、使用中もしくはリビルド処理中である全てのホットスペア装置16が、異常発生記憶装置16を含むRAIDグループRよりも高い優先度であるRAIDグループRにおいて使用されている場合や、ホットスペア装置16を使用している全てのRAIDグループRに冗長性が無い場合には、リビルド処理を実行しないと判断する。従って、RAIDグループRの優先度という概念を取り入れることで、より重要度(再構築優先度順)が高いRAIDグループRのデータの冗長性が優先して確保される。これにより、RAID装置10内の重要度の高いデータを率先して保護することができ、RAID装置10の安全性や信頼性を高めることができる。
 また、RAID装置10内の各RAIDグループRが保持しているデータの重要度については考慮し、重要度の高いデータの冗長性を優先的に確保するように管理することで、装置規模が大きくなってきている近年のRAID装置において、RAID装置10内で複数のディスク装置16の故障が同時に発生した場合や、故障した複数のディスク装置16についてのリビルド処理が実行された場合であっても、安全性や信頼性を高めることができる。
 さらに、異常発生記憶装置16を含むRAIDグループRの優先度Pが最低である場合には、未使用のホットスペア装置16が存在するか否かに関わらず、リビルド処理を実行しないと判断することにより、RAID装置10内の重要度の高いデータにのみホットスペア装置16を割り当てることできるので、重要度の高いデータをより確実に保護することができ、RAID装置10の安全性を更に高めることができる。
 〔2〕その他
 なお、本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
 例えば、上記実施形態では、実行部23がリビルド処理を復元処理として実行する場合について説明しているが、それに限定されるものではなく、異常発生記憶装置16に格納されていたデータをホットスペア装置16に復元する処理を復元処理として実行してもよい。
 また、上記実施形態では、RAIDグループRと論理ボリュームとを1対1に対応付けて、RAIDグループR毎に優先度を設定した場合について説明しているが、それに限定されるものではなく、例えば、RAIDグループR内に複数の論理ボリュームを構成し、これらの複数の論理ボリューム毎に優先度を設定してもよい。
 さらに、上記実施形態では、各RAIDグループR-0~R-4のRAIDレベルを上述の如く特定した場合について説明しているが、それに限定されるものではなく、リビルド処理を前提とするRAIDレベル、例えば、RAID0以外の各種RAIDレベルに適用可能である。
 図12は本発明の一実施形態の変形例としてのRAID装置30の構成例を模式的に示す図である。
 上記実施形態では、ハイエンド機として構成されたRAID装置10を用いて説明しているが、それに限定されるものではなく、例えば、図12に示すような、RAID装置10よりも簡素であり、複数(ここでは4個)のホスト31a~31dからアクセスされるエントリー機として構成されるRAID装置30を用いてもよい。
 このRAID装置30は、例えば、図12に示すように、複数(ここでは4個)のドライブエンクロージャ32a~32d,複数(ここでは2個)のコントローラモジュール33a,33bおよび複数(ここでは4個)のチャンネルアダプタ34a~34dをそなえたエントリー機として構成されている。
 そして、ドライブエンクロージャ32aが、複数(ここではk個;kは自然数)のディスク装置36a-1~36a-kをそなえている。以下同様に、ドライブエンクロージャ32bが複数(ここでは各k個)のディスク装置36b-1~36b-kを、ドライブエンクロージャ32cが複数(ここでは各k個)のディスク装置36c-1~36c-kを、ドライブエンクロージャ32dが複数(ここでは各k個)のディスク装置36d-1~36d-kを、それぞれそなえている。
 また、各ディスク装置36a-1~36a-k,36b-1~36b-k,36c-1~36c-k,36d-1~36d-kは、上述した一実施形態のディスク装置16と同様の機能構成をそなえている。
 従って、本変形例のRAID装置30では、複数(ここでは4×k個)のディスク装置36a-1~36a-k,36b-1~36b-k,36c-1~36c-k,36d-1~36d-kのそれぞれが、記憶装置またはホットスペア装置として機能するようになっている。
 また、本変形例のRAID装置30では、図12に示すように、複数(ここでは2個)の記憶装置36a-1,36a-2が、RAID1としてのRAIDグループR-30を構成している。又、複数(ここでは4個)の記憶装置36a-4,36a-5,36b-4,36b-5が、RAID1+0としてのRAIDグループR-31を構成している。更に、複数(ここでは4個)の記憶装置36b-1,36b-2,36c-1,36c-2が、RAID5としてのRAIDグループR-32を構成している。又、複数(ここでは5個)の記憶装置36d-1~36d-5が、RAID6としてのRAIDグループR-33を構成している。
 従って、本変形例のRAID装置30は、各ホスト31a~31dからアクセスされる複数(ここでは4個)のRAIDグループR-30~R-33を構成するのである。
 また、本変形例のRAID装置30では、図12に示すように、コントローラモジュール33aが、チャンネルアダプタ34aを介してホスト31aと接続されるとともに、チャンネルアダプタ34bを介してホスト31bと接続されている。又、コントローラモジュール33bが、チャンネルアダプタ34cを介してホスト31cと接続されるとともに、チャンネルアダプタ34dを介してホスト31dと接続されている。
 なお、コントローラモジュール33a,33bは、上述した一実施形態のコントローラモジュール13と同様の機能構成をそなえているので、その詳細な説明については省略する。
 このように、本発明の一実施形態の変形例としてのRAID装置30によっても、上述した一実施形態としてのRAID装置10と同様の作用効果を得ることができる。
 なお、本発明の各実施形態が開示されていれば、本発明を当業者によって実施・製造することが可能である。
 上位装置からアクセスされる複数の論理ボリュームを構成する複数の記憶装置をそなえたRAID装置に適用できる。

Claims (19)

  1.  上位装置からアクセスされる複数の論理ボリュームを構成する複数の記憶装置をそなえたRAID(Redundant Array of Inexpensive Disks)装置であって、
     前記複数の記憶装置のうちの異常が発生した異常発生記憶装置に格納されていたデータを復元可能な予備記憶装置と、
     該異常発生記憶装置に格納されていたデータを該予備記憶装置に復元する処理である復元処理を制御する制御部とをそなえ、
     該制御部は、
     前記複数の論理ボリューム毎に優先度を設定する優先度テーブルと、
     該異常発生記憶装置を検出する検出部と、
     該検出部で該異常発生記憶装置を検出すると、該優先度テーブルに設定された前記複数の論理ボリューム毎の優先度に基づいて、該復元処理を実行するか否かを判断する判断部と、
     該判断部で該復元処理を実行すると判断されると、該復元処理を実行する実行部とをそなえることを特徴とする、RAID装置。
  2.  該判断部は、該予備記憶装置が使用中である場合に、該異常発生記憶装置を含む異常発生論理ボリュームに設定されている優先度である第1の優先度と該予備記憶装置を含む使用中論理ボリュームに設定されている優先度である第2の優先度とを比較して、該復元処理を実行するか否かを判断することを特徴とする、請求項1に記載のRAID装置。
  3.  該実行部は、該予備記憶装置が使用中である場合に、該判断部で該復元処理を実行すると判断されると、該予備記憶装置を該使用中論理ボリュームから切り離して該復元処理を実行することを特徴とする、請求項2に記載のRAID装置。
  4.  該予備記憶装置を複数そなえ、
     該制御部は、
     前記複数の予備記憶装置の全てが使用中である場合に、前記複数の予備記憶装置の中から特定予備記憶装置を特定する特定部をそなえ、
     該判断部が、該異常発生記憶装置を含む異常発生論理ボリュームに設定されている優先度である第1の優先度と該特定部で特定された該特定予備記憶装置を含む使用中論理ボリュームに設定されている優先度である第2の優先度とを比較して、該特定予備記憶装置に対して該復元処理を実行するか否かを判断することを特徴とする、請求項1に記載のRAID装置。
  5.  該実行部は、前記複数の予備記憶装置の全てが使用中である場合に、該判断部で該特定予備記憶装置に対して該復元処理を実行すると判断されると、該特定予備記憶装置を該使用中論理ボリュームから切り離して、該特定予備記憶装置に対して該復元処理を実行することを特徴とする、請求項4に記載のRAID装置。
  6.  該特定部は、前記複数の予備記憶装置の中から、最も優先度の低い論理ボリュームに含まれる予備記憶装置を該特定予備記憶装置として特定することを特徴とする、請求項4または請求項5に記載のRAID装置。
  7.  該制御部は、
     冗長性に関する状態情報を前記複数の論理ボリューム毎に記憶する状態テーブルをそなえ、
     該特定部は、該優先度テーブルと該状態テーブルとに基づいて、前記複数の予備記憶装置の中から、冗長性があり且つ最も優先度の低い論理ボリュームに含まれる予備記憶装置を該特定予備記憶装置として特定することを特徴とする、請求項4または請求項5に記載のRAID装置。
  8.  該判断部は、該第1の優先度が該優先度テーブルに設定された優先度の中で最も低い場合には、該復元処理を実行しないと判断することを特徴とする、請求項2~7のいずれか1項に記載のRAID装置。
  9.  該優先度は、該論理ボリュームに含まれるデータの重要度に基づいて該優先度テーブルに設定されることを特徴とする、請求項1~8のいずれか1項に記載のRAID装置。
  10.  該制御部は、
     該優先度に関する優先度情報を受信する受信部と、
     該受信部で受信した該優先度情報を該優先度テーブルに設定する設定部とをそなえることを特徴とする、請求項9に記載のRAID装置。
  11.  上位装置からアクセスされる複数の論理ボリュームを構成する複数の記憶装置と、前記複数の記憶装置のうちの異常が発生した異常発生記憶装置に格納されていたデータを復元可能な予備記憶装置とをそなえたRAID(Redundant Array of Inexpensive Disks)装置に関し、該異常発生記憶装置に格納されていたデータを該予備記憶装置に復元する処理である復元処理を制御するためのRAID装置の制御装置であって、
     前記複数の論理ボリューム毎に優先度を設定する優先度テーブルと、
     該異常発生記憶装置を検出する検出部と、
     該検出部で該異常発生記憶装置を検出すると、該優先度テーブルに設定された前記複数の論理ボリューム毎の優先度に基づいて、該復元処理を実行するか否かを判断する判断部と、
     該判断部で該復元処理を実行すると判断されると、該復元処理を実行する実行部とをそなえることを特徴とする、RAID装置の制御装置。
  12.  該判断部は、該予備記憶装置が使用中である場合に、該異常発生記憶装置を含む異常発生論理ボリュームに設定されている優先度である第1の優先度と該予備記憶装置を含む使用中論理ボリュームに設定されている優先度である第2の優先度とを比較して、該復元処理を実行するか否かを判断することを特徴とする、請求項11に記載のRAID装置の制御装置。
  13.  該判断部は、該第1の優先度が該優先度テーブルに設定された優先度の中で最も低い場合には、該復元処理を実行しないと判断することを特徴とする、請求項12に記載のRAID装置の制御装置。
  14.  該優先度は、該論理ボリュームに含まれるデータの重要度に基づいて該優先度テーブルに設定されることを特徴とする、請求項11~13のいずれか1項に記載のRAID装置の制御装置。
  15.  該優先度に関する優先度情報を受信する受信部と、
     該受信部で受信した該優先度情報を該優先度テーブルに設定する設定部とをそなえることを特徴とする、請求項14に記載のRAID装置の制御装置。
  16.  上位装置からアクセスされる複数の論理ボリュームを構成する複数の記憶装置と、前記複数の記憶装置のうちの異常が発生した異常発生記憶装置に格納されていたデータを復元可能な予備記憶装置とをそなえたRAID(Redundant Array of Inexpensive Disks)装置に関し、該異常発生記憶装置に格納されていたデータを該予備記憶装置に復元する処理である復元処理を制御するためのRAID装置の制御方法であって、
     該異常発生記憶装置を検出する検出ステップと、
     該検出ステップにおいて該異常発生記憶装置を検出すると、前記複数の論理ボリューム毎に優先度を設定する優先度テーブルに基づいて、該復元処理を実行するか否かを判断する判断ステップと、
     該判断ステップにおいて該復元処理を実行すると判断されると、該復元処理を実行する実行ステップとをそなえることを特徴とする、RAID装置の制御方法。
  17.  該判断ステップにおいて、該予備記憶装置が使用中である場合に、該異常発生記憶装置を含む異常発生論理ボリュームに設定されている優先度である第1の優先度と該予備記憶装置を含む使用中論理ボリュームに設定されている優先度である第2の優先度とを比較して、該復元処理を実行するか否かを判断することを特徴とする、請求項16に記載のRAID装置の制御方法。
  18.  該判断ステップにおいて、該第1の優先度が該優先度テーブルに設定された優先度の中で最も低い場合には、該復元処理を実行しないと判断することを特徴とする、請求項17に記載のRAID装置の制御方法。
  19.  該優先度は、該論理ボリュームに含まれるデータの重要度に基づいて該優先度テーブルに設定されることを特徴とする、請求項16~18のいずれか1項に記載のRAID装置の制御方法。
PCT/JP2008/061734 2008-06-27 2008-06-27 Raid装置並びにその制御装置および制御方法 WO2009157086A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/061734 WO2009157086A1 (ja) 2008-06-27 2008-06-27 Raid装置並びにその制御装置および制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/061734 WO2009157086A1 (ja) 2008-06-27 2008-06-27 Raid装置並びにその制御装置および制御方法

Publications (1)

Publication Number Publication Date
WO2009157086A1 true WO2009157086A1 (ja) 2009-12-30

Family

ID=41444162

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/061734 WO2009157086A1 (ja) 2008-06-27 2008-06-27 Raid装置並びにその制御装置および制御方法

Country Status (1)

Country Link
WO (1) WO2009157086A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013174984A (ja) * 2012-02-24 2013-09-05 Nec Corp ストレージシステム
GB2514810A (en) * 2013-06-05 2014-12-10 Ibm Rebuilding data of a storage system
US9286163B2 (en) 2013-01-14 2016-03-15 International Business Machines Corporation Data recovery scheme based on data backup status
CN114063929A (zh) * 2021-11-25 2022-02-18 北京计算机技术及应用研究所 基于双控制器硬盘阵列的局部raid重构系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269871A (ja) * 1996-03-29 1997-10-14 Mitsubishi Electric Corp ディスクアレイ装置におけるデータ再冗長化方式
JPH1124850A (ja) * 1997-07-08 1999-01-29 Hitachi Ltd ディスクアレイにおけるデータ回復方法
JP2001147785A (ja) * 1999-10-29 2001-05-29 Hewlett Packard Co <Hp> データを管理する方法
JP2001175423A (ja) * 1999-12-21 2001-06-29 Nec Corp ディスクアレイ装置及びディスクアレイ装置における障害復旧方法
JP2006201915A (ja) * 2005-01-19 2006-08-03 Nec Corp ディスク装置及びホットスワップ方法
JP2007241837A (ja) * 2006-03-10 2007-09-20 Nec Corp ディスクアレイ制御装置および故障診断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269871A (ja) * 1996-03-29 1997-10-14 Mitsubishi Electric Corp ディスクアレイ装置におけるデータ再冗長化方式
JPH1124850A (ja) * 1997-07-08 1999-01-29 Hitachi Ltd ディスクアレイにおけるデータ回復方法
JP2001147785A (ja) * 1999-10-29 2001-05-29 Hewlett Packard Co <Hp> データを管理する方法
JP2001175423A (ja) * 1999-12-21 2001-06-29 Nec Corp ディスクアレイ装置及びディスクアレイ装置における障害復旧方法
JP2006201915A (ja) * 2005-01-19 2006-08-03 Nec Corp ディスク装置及びホットスワップ方法
JP2007241837A (ja) * 2006-03-10 2007-09-20 Nec Corp ディスクアレイ制御装置および故障診断方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013174984A (ja) * 2012-02-24 2013-09-05 Nec Corp ストレージシステム
US9286163B2 (en) 2013-01-14 2016-03-15 International Business Machines Corporation Data recovery scheme based on data backup status
GB2514810A (en) * 2013-06-05 2014-12-10 Ibm Rebuilding data of a storage system
CN114063929A (zh) * 2021-11-25 2022-02-18 北京计算机技术及应用研究所 基于双控制器硬盘阵列的局部raid重构系统及方法
CN114063929B (zh) * 2021-11-25 2023-10-20 北京计算机技术及应用研究所 基于双控制器硬盘阵列的局部raid重构系统及方法

Similar Documents

Publication Publication Date Title
US20110264949A1 (en) Disk array
US7133966B2 (en) Disk array device having spare disk drive and data sparing method
CN102483686B (zh) 数据存储系统和用于操作数据存储系统的方法
US7058762B2 (en) Method and apparatus for selecting among multiple data reconstruction techniques
US8090981B1 (en) Auto-configuration of RAID systems
US7457916B2 (en) Storage system, management server, and method of managing application thereof
US20050229033A1 (en) Disk array controller and information processing apparatus
US20080178040A1 (en) Disk failure restoration method and disk array apparatus
US20040168101A1 (en) Redundant memory system and memory controller used therefor
US9009569B2 (en) Detection and correction of silent data corruption
EP3244315B1 (en) Method and apparatus for performing data recovery in redundant storage system
US8438429B2 (en) Storage control apparatus and storage control method
JP4324088B2 (ja) データ複製制御装置
US10678643B1 (en) Splitting a group of physical data storage drives into partnership groups to limit the risk of data loss during drive rebuilds in a mapped RAID (redundant array of independent disks) data storage system
US7624301B2 (en) Method and apparatus for identifying failure module
US20070101188A1 (en) Method for establishing stable storage mechanism
WO2009157086A1 (ja) Raid装置並びにその制御装置および制御方法
US20080162826A1 (en) Storage system and data guarantee method
US7130973B1 (en) Method and apparatus to restore data redundancy and utilize spare storage spaces
JP2007241837A (ja) ディスクアレイ制御装置および故障診断方法
US9116859B2 (en) Disk array system having a plurality of chassis and path connection method
JP2005099995A (ja) 磁気ディスク装置のディスク共有方法及びシステム
US7457990B2 (en) Information processing apparatus and information processing recovery method
CN108604166A (zh) 冷存储系统的数据保护
JP2010267037A (ja) ディスクアレイ装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08790699

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08790699

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP