WO2018142622A1 - 計算機 - Google Patents

計算機 Download PDF

Info

Publication number
WO2018142622A1
WO2018142622A1 PCT/JP2017/004251 JP2017004251W WO2018142622A1 WO 2018142622 A1 WO2018142622 A1 WO 2018142622A1 JP 2017004251 W JP2017004251 W JP 2017004251W WO 2018142622 A1 WO2018142622 A1 WO 2018142622A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
storage
fmpkg
storage drive
failure
Prior art date
Application number
PCT/JP2017/004251
Other languages
English (en)
French (fr)
Inventor
裕大 藤井
英通 小関
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2017/004251 priority Critical patent/WO2018142622A1/ja
Priority to US16/327,787 priority patent/US10915401B2/en
Priority to JP2018565232A priority patent/JP6817340B2/ja
Publication of WO2018142622A1 publication Critical patent/WO2018142622A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1088Reconstruction on already foreseen single or plurality of spare disks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • G06F11/2092Techniques of failing over between control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling

Definitions

  • the present invention relates to control of a plurality of storage drives.
  • a hard architecture has a plurality of storage chips in the drive and drives them in parallel. Multiple memory chips can be operated in parallel by the number connected by the bus, and high input / output performance is achieved by operating in parallel.
  • HDD Hard Disk Drive
  • advantages such as improved performance by parallelization, support for partial failure, and easy performance design from the number of chips and parallel number is there.
  • a storage device using a NAND flash memory (hereinafter referred to as FM) is widely used. This is because it is excellent in miniaturization and has a low bit cost as compared with other semiconductor memory devices.
  • Device usage includes SSD (Solid State Drive) as a drive like conventional HDD replacement, and All Flash Array with all storage devices as FM.
  • Patent Document 1 discloses a data saving technique when a failure occurs in a part of a storage device. By saving only the faulty part to the spare drive, the time required for recovery is shortened.
  • S SSD has a lifetime.
  • An FM typically a NAND type FM
  • writes and reads data in units called pages hereinafter referred to as “segments” in order to distinguish them from “pages” which are management units of the host device).
  • pages hereinafter referred to as “segments” in order to distinguish them from “pages” which are management units of the host device.
  • FM due to its physical characteristics, when FM tries to rewrite data, it cannot directly overwrite the data on the physical storage area where the data is stored.
  • the FM performs an erasure process (hereinafter referred to as block erase) on the data in the physical storage area in units of erase called blocks, and performs block erase. It is necessary to write data on the physical storage area where the process is performed.
  • block erase erasure process
  • the number of times of erasing each block is limited due to physical restrictions of FM.
  • the number of erases of a certain block exceeds this limit, data cannot be stored in that block. That is, when the number of erasures of all blocks (or spare areas) in the SSD exceeds the upper limit, the life of the SSD is exhausted.
  • WL wear leveling
  • SSD has map information from logical address to physical address.
  • the SSD has a map for converting the logical and physical segments, which has been one-to-one in the conventional HDD, and corresponds to the update of the data storage position by the WL by rewriting the map.
  • FM is composed of a plurality of blocks.
  • a group of a plurality of blocks sharing a signal line is called a plane, and a group of the plurality of planes is called a die.
  • an FM chip is composed of one or a plurality of dies.
  • Cases in which data cannot be read from FM can be broadly divided into two categories: FM life and physical failure.
  • lifetime refers to the case where the stored data cannot be read correctly even when the number of rewrites described above is exceeded and error correction is executed.
  • a physical failure is, for example, a case where access to the FM becomes impossible due to a failure of a circuit constituting the storage element. The range of influence varies depending on the location of the fault circuit, and occurs for each layer such as a die, a plane, a block, and a segment.
  • the technique recovers the lost data from another RAID drive and writes it to the spare drive.
  • the logical address of data and the physical storage location are managed by mapping using the WL technology. Even if the data is stored in a physically continuous area, the logical address space Dispersed discontinuously. That is, the lost data saved to the spare drive due to the failure is distributed in a wide range in the logical address space.
  • a typical example of the present invention is a computer that controls a plurality of storage drives, and includes a memory and a processor that operates according to a program stored in the memory, and the processor is a first storage drive.
  • the processor is a first storage drive.
  • the logical address space of the first storage drive one or more areas of a predetermined size or more are selected, and the data of the selected one or more areas is moved to the second storage drive.
  • Data is read from the first storage drive and the other storage drives constituting the RAID group, the lost data due to the partial failure is restored, and the restored lost data is written to the first storage drive.
  • FIG. 10 is a diagram illustrating a relationship between a virtual flash memory package and a flash memory package in Embodiment 2. It is a figure which shows the format of the VFMPKG management table in Example 2.
  • FIG. 10 is a diagram illustrating a flow of data saving processing according to the second embodiment. It is a figure which shows the flow of the save data selection in Example 2.
  • FIG. 10 is a diagram illustrating a processing flow of a read processing execution unit in the second embodiment.
  • FIG. 10 is a diagram showing a flow of I / O processing of a flash memory package in Embodiment 3.
  • FIG. 10 is a diagram illustrating a process flow of a write after process execution unit according to a third embodiment.
  • FIG. 10 is a diagram illustrating a flow of I / O processing inside FMPKG in the third embodiment.
  • FIG. 1A shows an overview of the example.
  • the storage drives 17A to 17C constitute a RAID (Redundant Arrays of Inexpensive Disks).
  • the storage drives (sometimes referred to as storage devices) 17A to 17D provide storage areas (volumes) 10A to 10D in the logical address space, respectively.
  • the storage drives 17A to 17D are, for example, flash drives.
  • mapping between the logical address space and the physical address space of the storage drive is dynamic and the physical address mapped to the logical address can change.
  • One logical address area can be mapped to a plurality of physical address areas, and one physical address area can be mapped to a plurality of logical address areas.
  • a partial failure has occurred in the storage drive 17C, and the data blocks 12 in a plurality of discrete logical address areas have disappeared.
  • a partial failure is, for example, a failure of one die. Due to the partial failure, the free capacity of the storage drive 17C is insufficient.
  • the host device 16 moves some data in the storage drive 17C to the spare storage drive 17D.
  • the data movement includes data copying to the data movement destination and data deletion at the movement source.
  • the host device 16 moves a data block 15 (data in one logical address area) 15 of a predetermined size to the storage drive 17D in the logical address space of the storage drive 17C that has partially failed.
  • a data block 15 data in one logical address area
  • the free capacity of the storage drive 17C increases due to the data movement.
  • the host device 16 restores the lost data block 12 with the data blocks 11A and 11B of the other storage drives 17A and 17B constituting the RAID, and writes them to the storage drive 17C.
  • the data to be moved may be, for example, data in one continuous logical address area or data in one or more storage areas having a predetermined size or more.
  • the plurality of storage areas having a predetermined size or larger may be the same size or different sizes.
  • FIG. 1B shows the configuration of the computer system of the first embodiment.
  • the computer system includes a storage system 101, one or more host computers 103 A and 103 B, and a management terminal 104.
  • Each of the host computers 103A and 103B is connected to the storage system 101 via a SAN (Storage Area Network) 105.
  • SAN Storage Area Network
  • the storage system 101 includes a storage controller 102 and a plurality of flash memory storage drives 113A to 113E.
  • the flash memory storage drive may be referred to as FMPKG (Flash Memory Package).
  • FMPKG Flash Memory Package
  • the storage controller 102 includes a CPU (Central Processing Unit) 108, a main memory 109, a plurality of host IFs (Interface) 107A and 107B, a plurality of storage IFs 111A and 111B, and a maintenance IF 106. Each unit in the storage controller 102 is connected via a bus.
  • the main memory 109 has an area for storing a program for controlling the storage system 101 and an area as a cache memory for temporarily storing data.
  • the CPU 108 controls the storage system 101 according to a program stored in the main memory 109.
  • the CPU 108 which is a processor operates as a predetermined functional unit according to a program. Therefore, in the description with the program as the subject, the subject can be replaced with the CPU 108 or the storage system 101 including the CPU 108.
  • the storage controller 102 controls, for example, a plurality of storage drives as a RAID group (RG).
  • RG RAID group
  • SAS Serial Attached Small Computer System Interface
  • HDD Hard Disk Drive
  • SATA Serial Advanced Technology Storage, etc.
  • a storage drive storage device
  • PDEV Physical Device
  • the host IFs 107A and 107B are interfaces that communicate with the host computers 103A and 103B.
  • the maintenance IF 106 is an interface that is connected to the management terminal 104 and performs communication with the management terminal 104.
  • the administrator performs management and maintenance of the storage controller 102 from the management terminal 104.
  • the management terminal 104 is not an essential element, and management and maintenance of the storage controller 102 may be performed from a host computer, for example.
  • the host computers 103A and 103B and FMPKGs 113A to 113E are connected via the storage controller 102.
  • the storage controller 102 may be omitted, and the host computers 103A and 103B and the FMPKGs 113A to 113E may be directly connected.
  • FMPKG 113 indicates one or a plurality of FMPKGs in the storage system 101.
  • a hyper-converged system is a system in which a plurality of servers (nodes) including local storage such as HDDs and SSDs are connected to form a cluster.
  • a hypervisor having a virtualization function operates in the server, and the hypervisor operates a server virtual machine and a storage virtual machine defined by software.
  • the technology of the present disclosure can be applied to a system in which a storage drive and a storage controller are connected via a network.
  • a storage unit allocation unit is called a page.
  • the storage controller 102 can define one or more logical volumes and provide them to a host device such as the host computer 103.
  • the host computer 103 indicates one or a plurality of host computers of the host computers 103A and 103B.
  • FIG. 2 illustrates virtual pages 202A, 202B, 202C.
  • the size of the virtual page is stored in the virtual page capacity 308 in the main memory 109.
  • the capacity of all virtual pages is the same, but virtual pages of different sizes may exist in the storage system 101.
  • the virtual page is used only for managing the storage space of the logical volume within the storage controller 102.
  • the host computer 103 designates the storage area to be accessed using a logical address such as LBA (Logical Block Address).
  • LBA Logical Block Address
  • the storage controller 102 When the host computer 103 issues an access request to the logical volume, the storage controller 102 replaces the LBA specified by the host computer 103 with the virtual page number (identification number given to each virtual page) and the relative address within the virtual page. Convert to (offset address from the top of the virtual page).
  • This conversion can be realized by dividing the LBA by the virtual page size. If the size of the virtual page is P (MB), an area of P (MB) from the head position of the logical volume is managed as a virtual page # 0 (# 0 indicates a virtual page number), and the next P ( MB) area is managed as virtual page # 1. Similarly, the P (MB) areas are managed as virtual pages # 2, # 3,.
  • FIG. 2 shows a state in which the real page 203A is allocated to the virtual page # 0 (202a).
  • the real page is an area formed using storage areas of a plurality of flash volumes of the RG 204.
  • FIG. 2 shows the flash volumes 115A to 115E of the FMPKGs 113A to 113E, respectively.
  • the RAID type of the RG 204 illustrated in FIG. 2 has a RAID 4 3D + 1P configuration (a RAID group including three data drives and one parity drive).
  • the FMPKGs 113A to 113E constitute a RAID
  • the flash volume 115A (FMPKG 113A) stores data stored in the failed FMPKG when one FMPKG of the RG 204 fails, and stores the data stored in the RG 204. This is a spare FMPKG for ensuring redundancy.
  • the storage controller 102 manages the flash volumes 115A to 115E of the FMPKGs 113A to 113E belonging to the RG 204 by dividing them into a plurality of fixed size storage areas called stripe blocks. For example, in FIG. 2, each region described as 0 (D), 1 (D), 2 (D)... Or P0, P1.
  • the stripe block size is equal to the virtual segment size of the flash volume. Unlike this, a configuration in which the stripe block and the virtual segment have different sizes may be employed.
  • stripe blocks described as P0, P1,... are stripe blocks in which redundant data (parity) generated by the RAID function is stored. Call.
  • stripe blocks described as 0 (D), 1 (D), 2 (D)... Are stripe blocks in which data written from the host computer 103 (data that is not redundant data) is stored. This stripe block is called a “data stripe block”.
  • the parity stripe block stores redundant data generated using a plurality of data stripe blocks.
  • the parity stripe block P0 stores redundant data (parity) generated using the data stripe blocks 0 (D), 1 (D), and 2 (D).
  • the data stripe blocks 0 (D), 1 (D), 2 (D) and the parity stripe block P0 belong to the same stripe line.
  • each stripe block belonging to one stripe line exists at the same position (address) on the flash volumes 115B to 115E.
  • a configuration in which each stripe block belonging to the same stripe line exists at a different address on the flash volume may be employed.
  • a real page for example, 203A, 203B is composed of one or a plurality of stripe lines.
  • FIG. 2 shows a configuration example of RAID4.
  • the actual page size is twice the virtual page size.
  • the relationship (mapping) between the area in the virtual page and the area in the real page is as shown in FIG. That is, areas (0 (D), 1 (D), 2 (D)) obtained by removing parity from the top stripe line of the real page are allocated to the top area of the virtual page. Similarly, the areas (3 (D), 4 (D), 5 (D)7) Obtained by removing the parity from the second and subsequent stripe lines of the real page are sequentially assigned to the virtual page areas. .
  • the storage system 101 obtains the virtual page number and the relative address in the virtual page (offset address from the top of the virtual page) from the access position (LBA) on the logical volume specified by the access request from the host computer 103. As described above, since the area in the virtual page and the area in the real page are regularly mapped, the storage system 101 has the FMPKG 113 associated with the access position in the virtual page and the FMPKG 113 An area (data stripe block) can be uniquely calculated.
  • a parity stripe block belonging to the same stripe line as that data stripe block is also uniquely determined.
  • mapping between each area in the virtual page and each area in the real page is not limited to the mapping method described here.
  • the capacity virtualization technology when each logical volume is defined, the total storage capacity of each logical volume can be defined to be larger than the capacity of the actual storage medium. For this reason, in general, the number of virtual pages is larger than the number of actual pages.
  • the storage system according to this embodiment can also define more virtual pages than actual pages.
  • the real page assigned to each virtual page in the logical volume is not necessarily limited to the real page in the same FMPKG 113.
  • the real page assigned to virtual page # 0 and the real page assigned to virtual page # 1 may be real pages in different RGs 204. However, in this embodiment, an example will be described in which all the real pages that should be allocated to the virtual pages of one logical volume are allocated from the RG 204 having the same RAID type.
  • FIG. 3 shows information related to the present embodiment among the information stored in the main memory 109 of the storage system 101.
  • the main memory 109 includes at least a logical volume information table 301, a real page information table 302, a free real page management information pointer 303, a RAID group information table 304, an FMPKG information table 305, a data save address table 306, a spare FMPKG information table 307, A virtual page capacity 308 is stored.
  • FIG. 4 shows the format of the logical volume information table 301.
  • the logical volume information table 301 is prepared for each logical volume, and manages logical volume attribute information.
  • a logical volume whose attribute information is managed by a certain logical volume information table 301 is referred to as a “managed logical volume”.
  • the logical volume information table 301 includes a logical volume ID 401, a logical capacity 402, a logical volume RAID type 403, and a real page pointer 404.
  • the logical volume ID 401 indicates the ID of the management target logical volume.
  • the host computer 103 designates an identifier of a logical volume (for example, Logical Unit Number (LUN)), an address (LBA) in the logical volume, and an access destination data length, and issues an access request (read request or write request). Issue.
  • LUN Logical Unit Number
  • LBA address
  • the logical volume ID 401 stores a logical volume identifier that is designated when the host computer 103 issues an access request to the logical volume.
  • the logical capacity 402 indicates the capacity of the management target logical volume.
  • the logical volume RAID type 403 represents the RAID type of the management target logical volume.
  • the information included in the logical volume RAID type 403 includes a numerical value indicating N when storing redundant data of one storage drive for N storage drives in addition to RAID types such as RAID0 and RAID1.
  • the specified RAID type is a RAID type possessed by at least one RG 204.
  • the storage controller 102 selects a real page from the RG 204 whose RAID type of the RG 204 is the same as the logical volume RAID type 403.
  • the real page pointer 404 is a pointer to the page management information (real page information table 302 described later) of the real page assigned to the virtual page of the management target logical volume.
  • the number of real page pointers 404 is the number of virtual pages of the management target logical volume (the number obtained by dividing the logical capacity 402 by the virtual page capacity 308, but +1 if there is a remainder). If the number of virtual pages in the management target logical volume is n, there are n real page pointers 404.
  • the k-th real page pointer from the top is page management information (real page information described later) of the real page assigned to the virtual page # (k-1). Pointer to table 302).
  • the time when the real page is allocated is not when the logical volume is defined but when the data write request is actually received for the virtual page.
  • the real page pointer 404 corresponding to the virtual page that has not been written yet is an invalid value (NULL).
  • FIG. 5 shows the format of the real page information table 302.
  • the real page information table 302 is for managing information about real pages, and there is one real page information table 302 for each real page.
  • the real page information table 302 includes a RAID group 501, a real page address 502, a free page pointer 503, and a page data storage amount 504.
  • a real page managed by a certain real page information table 302 is referred to as a “management target real page”.
  • the RG 501 indicates the identifier of the RG to which the management target real page belongs.
  • the RG identifier is referred to as “RGID”.
  • the real page address 502 includes information on a position (address) where the management target real page exists.
  • the address indicated by the real page address 502 is a relative address in the RG 204 to which the management target real page belongs.
  • the empty page pointer 503 is used when a management target real page is not assigned to a virtual page.
  • a real page that is not assigned to a virtual page is referred to as a “free real page” or a “free page”.
  • the empty page pointer 503 points to the real page information table 302 of another empty page.
  • the free page pointer 503 is a NULL value.
  • the page data storage amount 504 indicates the amount of data stored in the management target real page. This information is not attribute information related to the FMPKG 113 (storage area) allocated to the management target real page, but attribute information related to data of the virtual page to which the management target real page is allocated. Therefore, when another real page is allocated to this virtual page and the data of the current real page is copied to a new real page, it is necessary to take over the value of the page data storage amount 504 as management information of the new real page. .
  • FIG. 6 shows the format of the RG information table 304.
  • the RG information table 304 is used for managing information about the RG 204.
  • One RG information table 304 exists for one RF 204.
  • the RG information table 304 includes an RG ID 601, an RG RAID type 602, a real page number 603, a free real page number 604, and an FMPKG pointer 605.
  • an RG 204 managed by a certain RG information table 304 is referred to as a “management target RG”.
  • RG ID 601 indicates the identifier of the management target RG.
  • the RG RAID type 602 indicates the RAID type of the management target RG. This RAID type is as described for the logical volume RAID type 403.
  • the real page number 603 and the free real page number 604 respectively indicate the total real page number and the free real page number of the management target RG.
  • the FMPKG pointer 605 indicates the package ID of the FMPKG 113 belonging to the management target RG.
  • the number of FMPKG pointers 605 included in the RG information table 304 is equal to the number of FMPKGs 113 belonging to the management target RG. This number is a value determined by the RG RAID type 602.
  • FIG. 7 shows the format of the FMPKG information table 305.
  • the FMPKG information table 305 is information for managing the FMPKG 113, and includes an FMPKG ID 701, an FMPKG virtual capacity 702, and a block capacity 703.
  • the FMPKG information table 305 exists for each FMPKG.
  • an FMPKG managed by a certain FMPKG information table is referred to as a management target FMPKG.
  • FMPKG ID 701 is an identifier of the management target FMPKG 113 (referred to as a package ID).
  • the FMPKG virtual capacity 702 indicates the size of the area provided to the storage controller 102 among the storage areas of the flash volume formed by the management target FMPKG 113. In the present embodiment, this size is referred to as “virtual capacity”.
  • FIG. 8 shows the format of the data save address table 306.
  • the data save address table 306 is information for managing the FMPKG 113, and includes an area number 801, a save flag 802, and a save destination FMPKG ID 803.
  • the data save address table 306 exists for each FMPKG.
  • an FMPKG managed by a certain data saving address table is referred to as a management target FMPKG.
  • the area number 801 is a unique ID assigned to each area by dividing the address space of the management target FMPKG into areas of a predetermined size.
  • An area is a unit of data saved in another FMPKG.
  • One area corresponds to, for example, an integral multiple of the stripe block. For example, when the stripe block size is 16 kB, the area size is 16 MB. By appropriately selecting the area size, it is possible to appropriately suppress a decrease in I / O performance after data saving.
  • the save flag 802 indicates whether or not the data stored in the corresponding area number 801 in the management target FMPKG is saved in the save destination FMPKG 113.
  • the save destination FMPKG ID 803 indicates the save destination FMPKG 113 corresponding to the corresponding area number 801 in the management target FMPKG. When there is no save destination FMPKG 113, the save destination FMPKG ID 803 is an invalid value (NULL).
  • FIG. 9 shows the format of the spare FMPKG information table 307.
  • the spare FMPKG information table 307 is information for managing the spare FMPKG 113, and includes a spare FMPKG ID 901, an area number 903, a save flag 904, a save source FMPKG ID 905, and an available capacity 902.
  • an FMPKG managed by certain spare FMPKG information is referred to as a management target spare FMPKG.
  • the spare FMPKG ID 901 indicates an identifier (referred to as a spare package ID) of the management target spare FMPKG.
  • An area number 903 indicates a unique ID assigned to each area by dividing the address space of the management target spare FMPKG into areas of a predetermined size.
  • the save flag 904 is an entry indicating whether or not data has been saved in the area of the management target spare FMPKG.
  • the save source FMPKG ID 905 stores the save source FMPKG ID when the data of the area in the management target spare FMPKG has been saved.
  • the usable capacity 902 indicates a capacity writable in the management target spare FMPKG. That is, a value obtained by subtracting the saved data capacity from the logical capacity of the managed spare FMPKG is stored.
  • FIG. 10 shows a format of a failure notification 1001 that is notified from the FMPKG 113 to the host device 112.
  • the failure notification 1001 includes a request type 1002, a lost data capacity 1003, and lost data information 1004.
  • the request type 1002 indicates the type of data restoration process requested by the FMPKG 113 to the higher-level device.
  • the lost data capacity 1003 indicates the lost data capacity that was lost when the FMPKG 113 partially failed.
  • the lost data information 1004 indicates an address and length information related to the lost data.
  • the FMPKG 113 includes a controller unit 1101 and a plurality of FM Chips 1110A to 1110H.
  • FMChip 11101110 means one or a plurality of FMChips among FMChips 1110A to 1110H.
  • the controller unit 1101 includes a CPU 1106, a main memory 1107, a controller 1103, a compression circuit 1108, a buffer 1104, and a battery 1105.
  • the internal elements of the controller unit 1101 are connected via a bus.
  • the main memory 1107 includes an area for storing a program for controlling the FMPKG 113 and an area for temporarily storing data.
  • the CPU 1106 operates as a predetermined functional unit according to a program stored in the main memory 1107, and controls the FMPKG 113.
  • the buffer 1104 is a cache memory that temporarily stores data.
  • the battery 1105 supplies power for storing data in the volatile main memory 1107 and the buffer 1104 in the non-volatile FMCHips 1110A to 1110H when the power to the FMPKG 113 is cut off.
  • the storage interface 1102 is an interface that communicates with the host device 112.
  • the controller unit 1101 is connected to the host device 112 via the storage interface 1102.
  • the host device 112 is, for example, the host computer 103 or the storage controller 102.
  • the flash memory interface 1109 is an interface for communicating with the FMChips 1110A to 1110H.
  • the controller unit 1101 and the FMChips 1110A to 1110H are connected via a flash memory interface 1109.
  • the controller unit 1101 provides the logical address space of the FMPKG 113 to the host device 112.
  • a physical storage area in the FMPKG 113 is associated with the logical address space.
  • a physical storage area corresponding to a logical storage space provided outside the FMPKG 113 is called a user area.
  • the logical address space is managed by being divided into logical segments of a predetermined size by FMPKG 113.
  • the controller unit 1101 receives a read / write request designating a logical address from the host device 112, the controller unit 1101 identifies a physical segment from the logical address and executes data read / write. Also, faults that partially occur in the FMPKG 113 are managed.
  • the physical storage area of the flash memory includes a plurality of blocks, and each block includes a plurality of physical segments (also simply referred to as segments).
  • a block is a unit for erasing data
  • a segment is a unit for writing and reading data. That is, the controller unit 1101 erases data in units of blocks and controls data writing and reading in units of segments.
  • flash memory has a characteristic that data cannot be overwritten. For this reason, when the controller unit 1101 receives data (update data) for updating data stored in a certain segment, the controller unit 1101 writes the update data to an empty segment in which no data is stored. Then, the correspondence between the logical segment and the physical segment before update is changed to the correspondence between the logical segment and the updated physical segment. Therefore, the host device 112 does not need to change the logical address of the access destination.
  • the controller unit 1101 manages the data before update as invalid data and the data after update as valid data.
  • invalid data When invalid data is erased, a segment in which invalid data is stored becomes an empty segment, and data can be written. Erasing is performed in units of blocks.
  • the controller unit 1101 copies the valid data to another empty segment and erases the data in the block. This process of valid data copying and block erasing is called garbage collection.
  • a storage drive using a flash memory as a storage medium is provided with an area (update area) for writing update data.
  • the user area and update area need not be physically separated. For example, when a certain block is erased after being used as a user area, the next may be used as an update area.
  • FIG. 12 shows the configuration of logical segments and physical segments of the FMPKG 113.
  • the controller unit 1101 provides the logical address space 1201 to the host device 112, and manages the logical address space 1201 by dividing it into logical segments 1202 of a predetermined segment (for example, 8 kB).
  • the controller unit 1101 manages the block by dividing it into physical segments 1203 of predetermined segments (for example, 8 kB). The controller unit 1101 assigns the physical segment 1203 to the logical segment 1202.
  • the block 1204 includes a predetermined number (for example, 256) of physical segments 1203.
  • the controller unit 1101 reads / writes data from / to the FM chip 1110 in units of physical segments 1203 and erases data from / to the FM chip 1110 in units of blocks 1204.
  • the logical address is referred to as LBA.
  • FIG. 13 shows information stored in the main memory 1107 of the controller unit 1101.
  • the main memory 1107 includes a logical-physical conversion program 1301, a logical-physical conversion information table 1302, a data transfer control unit control program 1303, an input / output control unit control program 1304, an operating system 1305, and a flash storage control program 1306.
  • FM management information table 1307 is stored.
  • the CPU 1106 executes control of the FMPKG 113 according to the flash storage control program 1306.
  • FIG. 14 shows the format of the logical / physical conversion information table 1302.
  • the logical-physical conversion information table 1302 has an entry for each logical segment.
  • the entry of the logical segment has an LBA 1401 indicating the head of the logical segment, a logical segment identifier 1402 indicating the logical segment, and a physical segment identifier 1403 indicating the physical segment assigned to the logical segment. .
  • the physical segment identifier 1403 When no physical segment is assigned to the logical segment, the physical segment identifier 1403 indicates unassigned.
  • the physical segment identifier includes, for example, a chip number indicating the position of the chip in the FMPKG 113, a die number indicating the position of the die in the chip, a block number indicating the position of the block in the die, and a word in the block A combination of a word line number indicating the position of a line and a segment number indicating the position of the physical segment in the block is shown.
  • the main memory 1107 stores physical information that is unique within the FMPKG 113, and related information that indicates the association of the chip number, die number, block number, word line number, and segment number.
  • the controller unit 1101 stores the related information.
  • the chip number, die number, block number, word line number, and segment number may be specified from the physical segment identifier.
  • FIG. 15 shows the FM management information table 1307.
  • the FM management information table 1307 manages resources that can be used in the FMPKG 113.
  • the FM management information table 1307 includes a valid block pointer 1501, an invalid block pointer 1502, a valid plane pointer 1503, an invalid plane pointer 1504, a valid die pointer 1505, an invalid die pointer 1506, a valid chip pointer 1507, and an invalid chip pointer. And a Chip pointer 1508.
  • the valid block pointer 1501 indicates the number of a block that the controller unit 1101 can use as a data storage destination.
  • the invalid block pointer 1502 indicates a block number that cannot be used for data storage due to a lifetime or failure.
  • the valid plane pointer 1503 indicates the number of the plane that the controller unit 1101 can use as a data storage destination.
  • the invalid plane pointer 1504 indicates the number of a plane that cannot be used for data storage due to a life or failure.
  • the valid Die pointer 1505 indicates a Die number that the controller unit 1101 can use as a data storage destination.
  • the invalid Die pointer 1506 indicates a Die number that cannot be used for data storage due to a life or failure.
  • the valid chip pointer 1507 indicates the number of a chip that the controller unit 1101 can use as a data storage destination.
  • the invalid chip pointer 1508 indicates a chip number that cannot be used for data storage due to a life or failure.
  • the controller unit 1101 When a failure occurs in the physical storage area of the FMPKG 113, the data stored in the physical storage area is lost. The controller unit 1101 cannot restore lost data. For this reason, the controller unit 1101 identifies the logical address area corresponding to the physical storage area where the failure has occurred, and notifies the host apparatus 112 of the logical address area. The host device 112 can restore the lost data from the data of the other FMPKG 113 in the RG.
  • the storage system 101 saves the data in the continuous logical address area to the spare FMPKG 113 to secure a physical storage area for storing the restored data in the partial failure FMPKG 113 and then restores the data.
  • the amount of data saved is equal to or greater than the area that is insufficient to store the restored data, and is, for example, data that is equal to or greater than the total amount of data to be restored.
  • the storage system 101 switches the access destination to the spare FMPKG 113 for access to the saved data and to the partial failure FMPKG 113 for access to other data. Since the data in the continuous logical address area is saved in the spare FMPKG 113, the data is obtained without degrading the sequential access performance as compared with the case where the data in the discrete logical address corresponding to the failure area is saved in the spare FMPKG 113. Redundancy restoration can be performed.
  • processing executed by the storage controller 102 and the FMPKG 113 will be described using the management information.
  • processing performed by the storage controller 102 will be described.
  • the processing performed by the storage controller 102 is realized by the processor 108 in the storage controller 102 executing a program.
  • the program is stored in the main memory 109.
  • FIG. 16 shows a program related to the present embodiment stored in the main memory 109.
  • the program according to the present embodiment includes a read process execution unit 1601, a write request reception unit 1602, a write after process execution unit 1603, and a partial failure process execution unit 1604. These programs realize high-level wear leveling technology and capacity virtualization technology.
  • the description of processing whose subject is a program is that the processing is performed by executing the program (read processing execution unit 1601 and the like) by the CPU 108. means.
  • the FMPKG 113 executes a wear leveling function and a lower level capacity virtualization function.
  • the storage controller 102 may perform wear leveling and lower level capacity virtualization functions. In this case, the storage controller 102 executes a program that realizes a wear leveling function and a lower level capacity virtualization function.
  • the present embodiment assumes that the FMPKG 113 realizes the lower level wear leveling technology and the capacity virtualization technology, and the read processing execution unit 1601, the write request reception unit 1602, the write after processing execution unit 1603, the partial failure
  • the process flow of the process execution unit 1604 will be described in detail.
  • This embodiment is based on the premise that the data access range specified by the read request or write request from the host computer 103 matches the virtual segment boundary that is the read / write unit of the flash memory. Even when the access range specified by the host computer 103 does not coincide with the virtual segment boundary, the logical volume can be accessed. For example, when a partial area of the virtual segment is designated as the write range, the FMPKG 113 reads the entire virtual segment, updates only the designated partial area, and writes the entire virtual segment.
  • FIG. 17 shows a flow in which the partial failure processing execution unit 1604 detects a failure of the FMPKG 113. This flow is performed when it is detected that a partial failure has occurred in a certain FMPKG 113.
  • the FMPKG 113 that has notified the failure is referred to as a partial failure FMPKG 113.
  • Data lost due to a failure is called lost data, and the logical address of the lost data is called lost data address.
  • the partial failure processing execution unit 1604 receives failure information from the failure FMPKG 113.
  • the failure information received by the partial failure processing execution unit 1604 includes a lost data address, a size, and a collection type.
  • the partial failure processing execution unit 1604 that has received the failure information first refers to the collection type information and determines the content of the processing. If the collection type information is a collection request (1702: YES), the partial failure processing execution unit 1604 executes Step 1703.
  • step 1703 the partial failure processing execution unit 1604 performs data restoration processing on the partial failure FMPKG 113 based on the lost data address received in step 1701.
  • data restoration process data associated with the notified address is restored by the RAID mechanism and written back to the partial failure FMPKG 113. This restores lost data and restores data redundancy.
  • the partial failure processing execution unit 1604 in step 1704, the spare registered in the spare FMPKG information table 307.
  • a predetermined spare FMPKG 113 is selected as a save destination from the FMPKG 113, and the available capacity is obtained by referring to the usable capacity 902 of the spare FMPKG information table 307. A method for selecting the save destination will be described later with reference to FIG.
  • the save destination FMPKG 113 is called a save destination FMPKG 113
  • data saved to the save destination FMPKG 113 is called save data
  • a logical address of the save data is called a save data address.
  • step 1705 the partial failure processing execution unit 1604 compares the save destination free space acquired in step 1704 with the save data amount acquired in step 1701. If the saved data amount is small (1705: YES), in step 1706, the partial failure process execution unit 1604 performs a data save process. The processing contents will be described later. After step 1706 is completed, the host device 112 performs step 1703 for the partial failure FMPKG 113.
  • the partial failure processing execution unit 1604 closes the partial failure FMPKG 113 and prompts replacement of the FMPKG 113 in step 1707. .
  • step 1801 the partial failure processing execution unit 1604 determines the ID of the save destination FMPKG 113. When there are a plurality of spare FMPKGs 113, the partial failure processing execution unit 1604 selects one of them. If there is an FMPKG 113 used as the save destination FMPKG 113, the partial failure processing execution unit 1604 selects it.
  • the partial failure processing execution unit 1604 determines saved data using the ID of the failure FMPKG 113 acquired in step 1701 and the data save address table 306. Specifically, the partial failure processing execution unit 1604 indicates that the save flag 802 stored in the data save address table 306 and the save flag 904 of the spare FMPKG information table 307 of the spare FMPKG 113 both indicate “no save”. Search for. In the example shown in FIGS. 8 and 9, area 1 is selected. By saving data in area units, it is possible to suppress a subsequent decline in I / O performance.
  • step 1804 is executed. If the data amount of the saved data selected in step 1801 is smaller than the lost data amount (1803: No), the partial failure processing execution unit 1604 executes step 1802 in order to try further saved data selection. Repeat until saved data with a capacity larger than the lost data can be selected.
  • the number (address) of the selected area may be discontinuous or continuous.
  • data of one failure FMPKG 113 is saved in one save destination FMPKG 113, but a plurality of failure FMPKGs 113 may share one save destination FMPKG 113. Conversely, a plurality of save destination FMPKGs 113 can be used for one failure FMPKG113.
  • step 1804 the partial failure processing execution unit 1604 executes copying of the save data to the save destination FMPKG 113 based on the save data acquired in step 1801 and the save destination FMPKG 113 information.
  • the lost data is restored by the RAID mechanism and stored in the save destination FMPKG 113.
  • lost data can be moved to another FMPKG 113, and saved data can be selected regardless of the logical address of the lost data.
  • the partial failure processing execution unit 1604 associates the LBA of the save destination FMPKG 113 with the save data so that the save data is the same as the LBA associated with the partial fault FMPKG. This eliminates the need for RAID stripe line reconstruction.
  • step 1804 When the data saving is completed after step 1804 (1805: YES), the partial failure processing execution unit 1604 sets the area number corresponding to the saving data in the data saving address table 306 and the spare FMPKG information table 307 in step 1806. Update entry.
  • the partial failure processing execution unit 1604 updates the save flag 802 and the save flag 904 to “save” for the entry of the area number 1 and saves the destination FMPKG.
  • the ID of the save destination FMPKG 113 is stored in the ID 803, and the ID of the partial failure FMPKG is stored in the save source FMPKG ID 905.
  • the value of the usable capacity 902 is updated.
  • step 1807 the partial failure processing execution unit 1604 deletes the saved data from the partial failure FMPKG 113. This processing increases the number of unused physical segments in the partial failure FMPKG 113, so that lost data can be stored.
  • step 1805 if any abnormality occurs in the save destination FMPKG 113 or the partial failure FMPKG 113, the data save is not completed (1805: NO). At this time, step 1808 is executed.
  • step 1808 the partial failure processing execution unit 1604 identifies which of the failure FMPKG 113 and the save destination FMPKG 113 has an abnormality. If the save destination FMPKG 113 has detected an abnormality (1808: save destination), step 1810 is executed.
  • step 1810 the partial failure processing execution unit 1604 determines whether there is another spare FMPKG 113 that can be selected as the save destination FMPKG 113 instead of the FMPKG 113 that has detected the abnormality. If there is another spare FMPKG 113 (1810: NO), the partial failure processing execution unit 1604 returns to Step 1803.
  • step 1809 is executed.
  • step 1809 the partial failure processing execution unit 1604 executes restoration failure processing.
  • the failure processing for example, the partial failure FMPKG 113 is blocked and the user is recommended to replace the partial failure FMPKG 113 via the management terminal 104.
  • the amount of data to be saved may be determined based on the remaining spare area capacity (the spare area free capacity) of the partial failure FMPKG 113 and the lost data size.
  • the partial failure processing execution unit 1604 acquires information on the remaining spare area capacity from the partial failure FMPKG 113, and saves an amount of data obtained by adding a predetermined value (may be 0) to the difference between the lost data amount and the remaining spare area capacity. To do.
  • the processing flow of the read processing execution unit 1601 will be described in detail with reference to FIG.
  • the read process execution unit 1601 is executed when the storage controller 102 receives a read request from the host computer 103.
  • step 1901 the read processing execution unit 1601 (CPU 108) calculates the virtual page # of the virtual page corresponding to the read target area and the relative address in the virtual page from the address of the read target area specified by the received read request. To do.
  • step 1902 the read processing execution unit 1601 checks whether the read target data is stored in the cache memory (main memory 109) (is hit). This is a known technique. If there is a hit (step 1902: YES), step 1910 is performed next. If there is no hit (step 1902: NO), then step 1904 is performed.
  • the read processing execution unit 1601 refers to the real page pointer 404 of the logical volume information table 301 to identify the real page information table 302 of the real page assigned to the read target virtual page.
  • the real page assigned to the read target virtual page is referred to as “read target real page” in the following description.
  • the read processing execution unit 1601 determines from the RG ID 501 and the real page address 502 of the specified real page information table 302 that the RG 204 to which the read target real page belongs and the read target real page (the top) are located in the RG 204. Calculate the address.
  • the read processing execution unit 1601 determines the position (specifically, in the real page) where the read target data is stored from the relative address in the virtual page obtained in step 1901 and the RG RAID type 602. Relative address) is calculated.
  • the read processing execution unit 1601 specifies the ID of the FMPKG 113 storing the read target data and the address in the FMPKG 113 using the calculated relative address in the real page, the RG RAID type 602, and the FMPKG pointer 605.
  • step 1906 the read processing execution unit 1601 refers to the data save address table 306 related to the corresponding FMPKG113 ID using the FMPKG113 ID acquired in step 1905.
  • the area number to which the address in FMPKG 113 acquired in step 1905 belongs is specified.
  • the read processing execution unit 1601 acquires the corresponding save destination FMPKG113 ID, and the ID of the read FMPKG 113 is the corresponding save destination FMPKG113 ID. Replace. If the save flag corresponding to the identified area number indicates “no save”, the read processing execution unit 1601 does nothing.
  • step 1907 the read processing execution unit 1601 issues a read request to the address of the FMPKG 113 specified in step 1906.
  • step 1908 the read process execution unit 1601 waits for data to be sent from the FMPKG 113.
  • step 1909 the read processing execution unit 1601 secures an area for storing the read target data in the main memory 109, and stores the data sent from the FMPKG 113 in the secured area. Thereafter, step 1910 is performed. In step 1910, the read process execution unit 1601 reads the read target data from the main memory 109 and sends it to the host computer 103 to complete the process.
  • FIG. 21 shows a processing flow of the write request accepting unit 1602.
  • the write request reception unit 1602 is executed when the storage controller 102 receives a write request from the host computer 103.
  • step 201 the write request reception unit 1602 (CPU 108) calculates the virtual page # of the virtual page corresponding to the write target area and the relative address in the virtual page from the address of the write target area specified by the received write request. To do.
  • step 2102 the write request reception unit 1602 identifies the logical volume information table 301 of the logical volume specified by the write request. Then, the write request reception unit 1602 checks whether or not a real page is allocated to the virtual page specified in step 2101 by referring to the real page pointer 404 in the specified logical volume information table 301. If a real page has been allocated, step 2103 is skipped and then step 2104 is executed.
  • the write request receiving unit 1602 allocates a real page to the virtual page corresponding to the write target area.
  • the write request reception unit 1602 refers to the RAID type 403 of the logical volume information table 301 specified in step 2102, the RG RAID type 602 of each RG information table 304, the number of free real pages 604, etc. Decide whether to allocate real pages.
  • the write request receiving unit 1602 refers to the determined free real page management information pointer 303 of the RG 204 and changes the leading free real page pointer 404 as indicated by the real page pointer 404 of the virtual page to which the write target area belongs. To do. As a result, the real page is assigned to the virtual page to which the write target area belongs.
  • the free real page management information pointer 303 indicates the next real page information table 302 (the real page information table 302 indicated by the free page pointer 503 in the real page information table 302 of the real page allocated to the virtual page). Changed to Furthermore, the empty page pointer 503 in the real page information table 302 of the real page assigned to the virtual page is set to null.
  • the write request reception unit 1602 reduces the number of empty real pages 604 in the RG information table 304 corresponding to the real page.
  • a virtual page is allocated to a real page when a write request is received. This allocation process may be executed until data is stored in the FMPKG 113.
  • step 2104 the write request receiving unit 1602 stores the write data specified by the write request from the host computer 103 in the main memory 109.
  • the write request receiving unit 1602 adds the write data write position information (FMPKG 113 ID, address on the flash volume (LBA), etc.) and stores it. Thereafter, the process ends.
  • the redundant data is stored in a parity stripe block belonging to the same stripe line as the data stripe block in which the write data is stored. This is a known method and will not be described in detail.
  • the redundant data is generated immediately after step 2104, for example. When the CPU 108 creates redundant data, the CPU 108 temporarily stores the redundant data in the main memory 109.
  • a parity stripe block for storing redundant data corresponding to the data is uniquely determined from the address on the virtual page. Even when there is saved data, the address of the save destination FMPKG 113 can be acquired by referring to the data save address table 306 in the same manner as described in the processing flow of the read processing execution unit 1601.
  • the CPU 108 adds write position information to the redundant data in the same way as write data.
  • Write data and redundant data are written to the FMPKG 113 by the write after process execution unit 1603.
  • the FMPKG 113 is both data to be written to the FMPKG 113, it is not necessary to distinguish between the write data and the redundant data. Therefore, the write after process execution unit 1603 performs the same process when writing write data and when writing redundant data.
  • FIG. 22 shows a process flow of the write after process execution unit 1603.
  • the write after process execution unit 1603 is executed by the CPU 108 at a predetermined opportunity.
  • the write after process execution unit 1603 may be periodically executed.
  • the write after process execution unit 1603 may be executed when the amount of dirty data on the main memory 109 exceeds a predetermined amount.
  • the write after process execution unit 1603 executes a process of writing the write data or redundant data received from the host computer 103 to the FMPKG 113.
  • the write after process execution unit 1603 processes write data and redundant data without distinguishing them as data to be written to the FMPKG 113.
  • step 2201 the write after process execution unit 1603 (CPU 108) searches the main memory 109 to determine data to be written in the FMPKG 113.
  • the write after process execution unit 1603 extracts write position information given to the found data.
  • an example will be described in which the range of the area written by the write after process execution unit 1603 does not extend over a plurality of FMPKGs 113.
  • step 2202 the write after process execution unit 1603 issues a write request to the target FMPKG 113 based on the write position information.
  • the write after process execution unit 1603 may issue an instruction indicating that the redundant data is not to be deduplicated.
  • step 2203 the write after process execution unit 1603 waits for the completion of the write request.
  • the write-after process execution unit 1603 receives an end report related to the write request from the FMPKG 113, the process ends.
  • FIG. 13 shows a program relating to the present embodiment stored in the main memory 1107, and a program relating to the present embodiment is a failure detection program 1308.
  • the process having the program (failure detection program 1308) as a subject means that the program (failure detection program 1308) is executed by the processor 1106.
  • FIG. 20 shows a process of a failure detection program for detecting a failure in the FMPKG 113 by the controller unit 1101 of a certain FMPKG 113.
  • the trigger for executing this process is, for example, a case where the I / O process is not completed as a result of the process for the I / O request from the host apparatus 112. However, this does not limit the execution trigger, and even if there is no I / O request from the host device 112, it may be executed periodically or may be executed by the internal processing of the FMPKG 113.
  • the failure detection program 1308 attempts to read data stored in a certain physical area.
  • This physical area is, for example, a physical page accessed by I / O processing from the immediately preceding upper device 112.
  • An area that is scheduled in advance to access all areas in the FMPKG 113 within a certain period of time may be used. It may be thinned out in units of blocks so that the entire FMPKG 113 can be accessed efficiently.
  • step 2001 when all the stored data can be read correctly (2002: NO), the failure does not exist in the range, and the diagnosis process ends. On the other hand, if a part of the stored data cannot be read correctly as a result of the process in step 2001 (2002: YES), the physical area is regarded as a failure, and step 2003 is executed.
  • the failure detection program 1308 performs a failure range search to determine whether there is a similar failure in the higher-order physical unit.
  • the failure detection program 1308 reads, for example, several pages from the same block as the failed page or several pages from a block sharing the same plane. As a result of this processing, the physical failure range is specified. Thereafter, the failure detection program 1308 specifies the logical address and the length information by physical conversion, and specifies the amount of data lost due to the failure.
  • the failure detection program 1308 registers the failed part found by this processing in the FM management information table 1307. If the failure range is Block, the failure block number is deleted from the valid block pointer 1501 and registered in the invalid block pointer 1502.
  • the lower range failure range is also registered. After specifying the failure range, obtain the logical address of the lost data.
  • the logical address is acquired using, for example, the logical / physical conversion information table 1302.
  • step 2004, the failure detection program 1308 compares the lost data amount (failure range) with the free spare area. If the value obtained by subtracting the lost data amount from the free spare area is equal to or greater than a predetermined value (eg, 0) (2004: NO), step 2005 is executed.
  • a predetermined value eg, 0
  • the failure detection program 1308 issues a data restoration request to the host device 112. Failure data can be restored by allocating a spare area previously held by the partial failure FMPKG 113 for user data. Therefore, prior to issuing the data restoration request, the failure detection program 1308 creates a failure notification 1001 based on the amount of lost data and the logical address of the lost data. The failure detection program 1308 sets a request for data restoration to the own FMPKG 113 by RAID in the request type 1002 and sets the logical address and length of the lost data in the lost data information 1004.
  • the failure detection program 1308 executes step 2006. In step 2006, the failure detection program 1308 issues a data save request to the host device 112.
  • the failure detection program 1308 Prior to the data save request, the failure detection program 1308 creates a failure notification 1001 based on the amount of lost data and the logical address of the lost data.
  • the failure detection program 1308 sets a request for data restoration to the save destination FMPKG 113 by RAID in the request type 1002 and sets the logical address and length of the lost data in the lost data information 1004.
  • the FMPKG 113 executes the data save / restore determination, but the storage controller 102 may execute the data save / restore determination instead.
  • the storage controller 102 acquires information on the free spare area capacity in addition to the information on the lost data from the FMPKG 113.
  • one FMPKG is divided and managed by logical addresses.
  • the relationship among the flash volume (FMPKG), the virtual FMPKG (hereinafter referred to as VFMPKG), and the real page will be described with reference to FIG.
  • FIG. 23 illustrates flash volumes 115A to 115E, VFMKGs 2301A to 2301H, and real pages 203A.
  • VFMKG 2301 is one or more VFMKGs.
  • the flash volume 115 of one FMPKG 113 is divided into a plurality of areas by logical addresses, and a VFMPKG number that is a virtual FMPKG number is assigned to each divided area.
  • the host device 112 recognizes one divided area as one FMPKG.
  • the host device 112 configures a RAID by a plurality of VFMPKG2301.
  • data is saved in units of VFMPKG. Thereby, the fall of I / O performance after retraction
  • the information of the area in Example 1 is unnecessary for a present Example.
  • FIG. 24 shows the VFMPKG management table 2401.
  • the VFMPKG management table 2401 is stored in the main memory 109.
  • the number of VFMPKG management tables 2401 matches the number of FMPKGs 113.
  • the VFMPKG management table 2401 has an FMPKG number 2501, a start address 2502, a termination address 2503, and a VFMPKG number 2504.
  • the start address 2502 and the end address 2503 indicate which address range of the FMPKG 113 to which the VFMPKG 2301 belongs is extracted.
  • FMPKG113 described in Example 1 refers to VFMPKG2301 in this example unless otherwise specified.
  • FIG. 25 shows a flow in which the partial failure processing execution unit 1604 saves the save data of the fault VFMPKG 2301 to the save destination VFMPKG 2301. This flow is executed in step 1706 described in the first embodiment.
  • the partial failure processing execution unit 1604 uses the ID of the failure FMPKG 113, the save data amount, and the backup FMPKG information table 307 acquired in step 1701 described in the first embodiment, and save data and save destination.
  • VFMPKG2301 is determined.
  • one spare FMPKG information table 307 shows information of one spare VFMPKG 2301, and the area number column is omitted. Also in the saved data information table 306, the area number column is omitted.
  • step 2601 the partial failure processing execution unit 1604 selects the save destination VFMPKG 2301 using the backup FMPKG information table 307.
  • step 2702 the partial failure processing execution unit 1604 selects one VFMPKG number from the VFMPKG numbers included in the partial failure FMPKG 113.
  • the selected VFMPKG 2301 is referred to as a save source candidate VFMPKG 2301.
  • the partial failure processing execution unit 1604 next uses the RG information table 304 to identify the RG 204 to which the save source candidate VFMPKG 2301 belongs, and displays a list of VFMPKG numbers 2504 that constitute the same RG 204 as the save source candidate VFMPKG 2301. get.
  • the partial failure processing execution unit 1604 determines whether the acquired VFMPKG ID is included in the save destination FMPKG 113 using the VFMPKG management table 2401 related to the save destination FMPKG 113.
  • the data of the save source candidate VFMPKG 2301 cannot be saved in the save destination FMPKG 113. This is because when the save destination FMPKG 113 fails, the RG 204 to which the save source candidate VFMPKG 2301 belongs has a two-point failure.
  • the partial failure processing execution unit 1604 newly selects the save source candidate VFMPKG2301. Note that the partial failure processing execution unit 1604 may terminate this reselection a specified number of times and terminate the processing. In that case, the partial failure processing execution unit 1604 performs failure processing as a failure to save.
  • Step 2705 is executed.
  • the partial failure processing execution unit 1604 determines the save source candidate VFMPKG 2301 as the save source VFMPKG 2301.
  • step 2706 the partial failure processing execution unit 1604 compares the capacity of one or a plurality of VFMPKG 2301 determined as the save source VFMPKG 2301 with the capacity of the lost data, and if the capacity of the lost data is larger (2706: NO). In order to select a new save source candidate VFMPKG 2301 from the failure FMPKG 113, the process returns to Step 2701. When the save source VFMPKG 2301 is larger (2706: YES), the selection of the save source VFMPKG 2301 is terminated.
  • step 2602 will be described with reference to FIG. 25 again.
  • the partial failure processing execution unit 1604 uses the save source VFMPKG 2301 in the RG information table 304 to which the save source VFMPKG 2301 belongs based on the save source VFMPKG number determined in step 2601 and the save destination VFMPKG number.
  • the entry of the FMPKG pointer 605 indicating “” is replaced with the save destination VFMPKG number.
  • the processing flow of the read processing execution unit 1601 will be described in detail with reference to FIG.
  • the read processing execution unit 1601 is executed when the storage controller 102 receives a read request from the host computer 103.
  • step 1906 the ID of the save destination FMPKG 113 is acquired.
  • the FMPKG pointer 605 already included in the RG information table 304 has been rewritten to the saved VFMPKG 2301, it is possible to uniquely specify the VFMPKG in which the data is stored, and step 1906 is unnecessary. is there.
  • the read process execution unit 1601 executes Step 2801.
  • the read processing execution unit 1601 converts the relative address in VFMPKG 2301 to the relative address in FMPKG 113 using the VFMPKG management table 2401. Specifically, a value obtained by adding the start address 2502 of the VFMPKG 2301 to the relative address in the VFMPKG 2301 is the relative address in the FMPKG 113.
  • the subsequent steps are the same as those shown in the first embodiment. Further, since the host light is the same as that of the first embodiment, the description thereof is omitted.
  • the data save address table 306 is stored in the main memory 109, but in this embodiment, the data save address table 306 is stored in the main memory 1107. In this embodiment, in addition to the elements described in the first and second embodiments, a data save address table 306 and a spare FMPKG information table 307 are stored in the main memory 1107.
  • the operation of the storage system 101 in the data saving process when a partial failure occurs in this embodiment will be described. Note that most of the operations are the same as those described in the first and second embodiments, and the difference will be mainly described below.
  • the differential operation is the reference and update of the data save address table 306 and the spare FMPKG information table 307 mentioned in the first and second embodiments.
  • each program executed in the storage system 101 issues these reference and update commands to the FMPKG 113, and receives the results for reference. And update.
  • the processing flow of the read processing execution unit 1601 will be described in detail using FIG.
  • the read processing execution unit 1601 is executed when the storage controller 102 receives a read request from the host 103.
  • the ID of the save destination FMPKG 113 is acquired in steps 1906 and 2801, respectively, but this embodiment is omitted.
  • step 1907 in the response from the FMPKG 113 that issued the read request in step 1907, the saved FMPKG ID may be received instead of the request data (step 3001: NO). At this time, step 3002 is performed.
  • step 1907 when the request data is received as a response from the FMPKG 113 that has issued the read request, the same processing as in the first and second embodiments is executed, and thus the description thereof is omitted.
  • step 3002 the read processing execution unit 1601 replaces the address acquired in step 1905 with the saved FMPKG ID received in step 3001, and executes step 1907 again. This makes it possible to receive saved data.
  • FIG. 29 is a processing flow of the write after process execution unit 1603.
  • the write after process execution unit 1603 is executed by the CPU 108 at a predetermined opportunity.
  • the write after process execution unit 1603 may be periodically executed.
  • the write after process execution unit 1603 may be executed when the amount of dirty data on the main memory 109 exceeds a predetermined amount.
  • step 2203 the write after process execution unit 1603 waits for the completion of the write request.
  • the write after process execution unit 1603 ends the process when an end report related to the write request is returned from the FMPKG 113 (step 3101: YES).
  • the FMPKG 113 may return a saved FMPKG ID related to the write request (step 3101: NO). This indicates that the data at the designated address is stored in another FMPKG 113 as saved data. Therefore, the write after process execution unit 1603 next executes Step 3102.
  • step 3102 the write after process execution unit 1603 replaces the write position information acquired in step 2201 with the saved FMPKG ID received in step 3101. Thereafter, the write after process execution unit 1603 executes Step 2202 again. As a result, data write to the save FMPKG 113 becomes possible.
  • the programs related to this embodiment are a flash storage control program 1306, an input / output control unit control program 1304, and a logical-physical conversion program 1301.
  • a process whose subject is a program means that the program (flash storage control program 1306, etc.) is executed by the processor 1106.
  • FIG. 30 shows an I / O processing flow inside the FMPKG 113 in this embodiment.
  • the input / output control unit control program 1304 receives an I / O command from the higher-level device 112.
  • the I / O command is mainly a read command or a write command.
  • the received command includes LBA information.
  • the logical-physical conversion program 1301 refers to the data save address table 306 based on the LBA included in the command received by the input / output control unit control program 1304, and determines whether the data related to the LBA is save data. Determine whether or not.
  • step 3203 If it is not saved data (step 3203: NO), the data related to the LBA is stored in its own FMPKG 113. Therefore, step 3206 is executed by the logical / physical conversion program 1301. In step 3206, the logical-physical conversion program 1301 converts the LBA into a physical segment address. Since this process is publicly known, a description thereof will be omitted.
  • step 3207 the flash storage control program 1306 reads the data stored in the physical segment using the physical segment address acquired in step 3206. Since this process is publicly known, a description thereof will be omitted.
  • step 3208 the input / output control unit control program 1304 transmits the data acquired in step 3207 to the higher-level device 112 and notifies a completion response. Since this process is publicly known, a description thereof will be omitted.
  • step 3203 if it is saved data (step 3203: YES), the data related to the LBA is stored in the saved FMPKG 113. Therefore, step 3204 is executed by the logical / physical conversion program 1301.
  • step 3204 the logical-physical conversion program 1301 refers to the data save address table 306 based on the LBA included in the command received by the input / output control unit control program 1304, and acquires the save destination FMPKG ID 803 corresponding to the LBA. To do.
  • step 3205 the input / output control unit control program 1304 transmits the data acquired in step 3204 to the higher-level device 112 and notifies a completion response.
  • the load on the storage controller 102 can be reduced.
  • this invention is not limited to the above-mentioned Example, Various modifications are included.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
  • a part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment.
  • each of the above-described configurations, functions, processing units, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card or an SD card.
  • control lines and information lines indicate what is considered necessary for the explanation, and not all control lines and information lines on the product are necessarily shown. In practice, it may be considered that almost all the components are connected to each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Detection And Correction Of Errors (AREA)

Abstract

開示される方法は、第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、前記選択した1以上の領域のデータを、第2の記憶ドライブに移動し、前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブからデータを読み出して、前記部分故障による消失データを復元し、復元した前記消失データを前記第1の記憶ドライブに書き込む、ことを含む。

Description

計算機
 本発明は、複数の記憶ドライブの制御に関する。
 近年、半導体記憶装置が普及している。ドライブ内に複数の記憶チップを有し、それらを並列に駆動させるハードアーキテクチャとなっている。複数記憶チップは、バスで繋がれている数だけ並列稼働でき、並列に稼働させることで高い入出力性能を達成する。従来型の磁気記憶装置であるHDD(Hard Disk Drive)と比較して、並列化による性能向上、部分的な故障にも対応可能、チップの数や並列数から容易に性能設計が可能といったメリットがある。
 半導体記憶装置の一例として、NAND型フラッシュメモリ(以下FMと記述)を用いた記憶デバイスが普及している。NOR型ほかの半導体記憶装置と比較して、微細化に優れ、ビットコストが低いことが理由である。デバイスの使用方法としては、従来のHDD置換のようなドライブとしてのSSD(Solid State Drive)のほか、すべての記憶装置をFMとしたAll Flash Arrayのようなものもある。
 SSDは、HDDに比べて高速な入出力が可能であり、その需要は高まっている。FMの微細化やデータ圧縮技術により、SSD1台あたりの容量が増加している。このため、ドライブ障害発生時のコレクション時間が長時間化している。例えば、特許文献1は、記憶デバイスの一部に障害が発生した場合のデータ退避技術を開示している。障害部位のみスペアドライブへ退避することで、復旧に必要な時間を短縮する。
米国特許出願公開第2013/0212428号
 SSDには寿命がある。FM(典型的にはNAND型FM)は、ページと呼ばれる単位でデータの書き込みおよび読み出しを行う(以降、上位装置の管理単位である"ページ"と区別するために"セグメント"と表記)。また、その物理的特性から、FMは、データを書き換えようとしたとき、そのデータが格納されている物理記憶領域上に、データを直接上書きすることができない。物理記憶領域上のデータに対してデータの書換えを行うためには、FMは、ブロックと呼ばれる消去単位で、物理記憶領域上のデータに対して消去処理(以下、ブロック消去)を行い、ブロック消去が行われた物理記憶領域上にデータを書く必要がある。
 しかしながら、FMの物理的な制約から、各ブロックの消去回数は、限界がある。そして、或るブロックの消去回数がこの限界を超えると、そのブロックにはデータを格納することができなくなってしまう。つまり、SSD内の全ブロック(又は予備領域)の消去回数が上限を超えた時、そのSSDの寿命が尽きる。
 そこで、ウエアレベリング(以下、WL)とよばれる手法を用いて、SSDの長寿命化が図られている。WLは、消去回数が多いブロックには低頻度に更新されるデータが格納されるように、また、消去回数が少ないブロックには高頻度に更新されるデータが格納されるように、データの格納位置を制御する。これにより、ブロック間の消去回数を平準化し、特定のブロックのみが劣化することを抑える。
 WLのために、SSDは、論理アドレスから物理アドレスへのマップ情報を持つ。SSDは、従来HDDでは1対1で対応されていた論理、物理セグメントを変換するマップを持ち、マップを書き換えることで、WLによるデータ格納位置の更新に対応する。
 既に述べたように、FMは複数のブロックから構成されている。信号線を共有している複数のブロックのまとまりをプレーンと呼び、複数プレーンのまとまりをダイと呼ぶ。一般に、FMチップは1ないしは複数のダイから構成されている。
 FMからのデータ読み出しが不可となるケースは、FM寿命と物理的故障の2つに大別される。寿命と呼ばれるものは、先に述べた書き換え回数を超え、誤り訂正を実行した場合でも格納データが正しく読めなくなる場合である。物理的故障は、例えば記憶素子を構成する回路の故障によってFMへのアクセスが不可となった場合である。故障回路の箇所によって、影響範囲が変化し、ダイ、プレーン、ブロック、セグメント等それぞれの階層に対して生じる。
 故障によるアクセス不可領域が想定数以上に発生すると、ユーザデータを格納する記憶領域を確保できなくなり、SSDを閉塞せざるをえなくなる。そのため、SSDのデータをスペアドライブに移動する。
 SSD内のFMの一部に障害が発生し、特許文献1の技術を適用した場合、当該技術は、消失データを他のRAIDドライブから復旧し、スペアドライブへ書き込む。SSDにおいては、データの論理的なアドレスと、物理的な格納位置は、WL技術によってマッピング管理されており、物理的に連続な領域に格納されているデータであっても、論理アドレス空間上は非連続に分散している。つまり、故障によってスペアドライブへ退避された消失データは、論理アドレス空間上、広範囲に離散的に分布していることになる。
 この消失データを含む領域へのシーケンシャルなアクセスを考える。一般に論理アドレス空間上連続なデータ(シーケンシャルデータ)は、一度のドライブへのコマンド発行でデータが読めることが期待される。しかし、消失データを含む連続領域へのシーケンシャルアクセスは、非消失データへのアクセスと、消失データへのアクセスの、2回のアクセスコマンド発行が必要となる。コマンド発行回数が増加するため、ストレージコントローラの資源を消費し、性能が低下する。
 従って、SSDのように、連続する物理的記憶領域が、論理アドレス空間において離散した領域にマッピングされる記憶ドライブからデータを退避した場合に、アクセス性能の低下を抑えることができる技術が望まれる。
 本発明の代表的な一例は、複数の記憶ドライブを制御する計算機であって、メモリと、前記メモリに格納されているプログラムに従って動作するプロセッサと、を含み、前記プロセッサは、第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、前記選択した1以上の領域のデータを、第2の記憶ドライブに移動し、前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブからデータを読み出して、前記部分故障による消失データを復元し、復元した前記消失データを前記第1の記憶ドライブに書き込む。
 本発明の一例によれば、記憶ドライブにおける部分故障に起因するデータ退避後に、アクセス性能の低下を抑えることができる。
本開示の概要を示す図である。 システムの構成を示す図である。 ストレージシステムが使用するRAID構成を示す図である。 ストレージシステムが参照する情報を示す図である。 論理ボリューム情報テーブルの形式を示す図である。 実ページ情報テーブルの形式を示す図である。 RG情報テーブルの形式を示す図である。 FMPKG情報テーブルの形式を示す図である。 データ退避アドレステーブルの形式を示す図である。 予備FMPKG情報テーブルの形式を示す図である。 障害通知の形式を示す図である。 フラッシュメモリパッケージの構成を示す図である。 フラッシュメモリパッケージの論理セグメント及び物理セグメントの構成を示す図である。 フラッシュメモリパッケージのメモリに格納されるプログラムの構成を示す図である。 論物変換情報テーブルの形式を示す図である。 FM管理情報テーブルの形式を示す図である。 ストレージシステムのメモリに格納されるプログラムの構成を示す図である。 部分故障処理実行部の処理フローを示す図である。 データ退避処理のフローを示す図である。 リード処理実行部の処理フローを示す図である。 障害検知プログラムの処理フローを示す図である。 ライト要求受付部の処理フローを示す図である。 ライトアフタ処理実行部の処理フローを示す図である。 実施例2における仮想フラッシュメモリパッケージとフラッシュメモリパッケージの関係を示す図である。 実施例2におけるVFMPKG管理テーブルの形式を示す図である。 実施例2におけるデータ退避処理のフローを示す図である。 実施例2における退避データ選択のフローを示す図である。 実施例2におけるリード処理実行部の処理フローを示す図である。 実施例3におけるフラッシュメモリパッケージのI/O処理のフローを示す図である。 実施例3におけるライトアフタ処理実行部の処理のフローを示す図である。 実施例3におけるFMPKG内部のI/O処理のフローを示す図である。
 以下、本発明のいくつかの実施例を、図面を用いて説明する。なお、これらの実施例は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではない。
 以下において、記憶ドライブ(記憶デバイス又はドライブとも呼ぶ)の部分故障に起因するデータ退避を開示する。図1Aは、実施例の概要を示す。記憶ドライブ17A~17Cは、RAID(Redundant Arrays of Inexpensive Disks)を構成する。記憶ドライブ(記憶デバイスと呼ぶ場合もある)17A~17Dは、それぞれ、論理アドレス空間の記憶領域(ボリューム)10A~10Dを提供する。記憶ドライブ17A~17Dは、例えば、フラッシュドライブである。
 論理アドレス空間と記憶ドライブの物理アドレス空間との間のマッピングは、動的であり、論理アドレスに対してマッピングされる物理アドレスは変化し得る。一つの論理アドレス領域が複数の物理アドレス領域にマッピングされ得、一つの物理アドレス領域が複数の論理アドレス領域にマッピングされ得る。
 図1Aにおいて、記憶ドライブ17Cにおいて部分故障が発生し、離散した複数の論理アドレス領域のデータブロック12が消失している。部分故障は、例えば、一つのダイの故障である。部分故障により、記憶ドライブ17Cの空き容量が不足している。上位装置16は、記憶ドライブ17C内の一部データを、スペア記憶ドライブ17Dに移動する。データの移動は、データの移動先へのデータコピー及び移動元におけるデータ削除を含む。
 上位装置16は、部分故障した記憶ドライブ17Cの論理アドレス空間において、所定サイズのデータブロック(一つの論理アドレス領域のデータ)15を、記憶ドライブ17Dへ移動する。図1Aの例は、二つのデータブロック15を移動する。データの移動により、記憶ドライブ17Cの空き容量が増加する。
 上位装置16は、消失データブロック12を、RAIDを構成する他の記憶ドライブ17A、17Bのデータブロック11A、11Bにより復元し、記憶ドライブ17Cに書き込む。
 スペア記憶ドライブ17Dへ移動するデータを、記憶ドライブ17Cの論理アドレス空間において、所定サイズ以上の連続記憶領域から切り出すことにより、データ移動後の記憶ドライブへのI/O要求の発行回数を低減し、I/O性能の低下を抑制する。移動するデータは、例えば、一つの連続論理アドレス領域のデータでもよく、所定サイズ以上の1以上の記憶領域のデータでもよい。所定サイズ以上の複数の記憶領域は、同一サイズでも異なるサイズでもよい。
 図1Bは、実施例1の計算機システムの構成を示す。計算機システムは、ストレージシステム101と、1つ以上のホスト計算機103A、103Bと、管理端末104とを有する。ホスト計算機103A、103Bのそれぞれは、SAN(Storage Area Network)105を介して、ストレージシステム101に接続される。
 ストレージシステム101は、ストレージコントローラ102と、複数のフラッシュメモリストレージドライブ113A~113Eとを有する。図面及び以下の説明では、フラッシュメモリストレージドライブをFMPKG(Flash Memory Package)と呼ぶことがある。なお、本実施例では、ストレージコントローラ102は1つであるが、複数のストレージコントローラ102で冗長構成されてもよい。
 ストレージコントローラ102は、CPU(Central Processing Unit)108と、主記憶109と、複数のホストIF(Interface)107A、107Bと複数のストレージIF111A、111Bと、保守IF106とを有する。ストレージコントローラ102内の各部は、バスを介して接続される。主記憶109は、ストレージシステム101を制御するためのプログラムを格納する領域及びデータを一時的に格納するキャッシュメモリとしての領域を有する。CPU108は、主記憶109に格納されたプログラムに従ってストレージシステム101を制御する。
 プロセッサであるCPU108は、プログラムに従って、所定の機能部として動作する。従って、プログラムを主語とする説明において、その主語をCPU108又はCPU108を含むストレージシステム101に代えることができる。
 ストレージコントローラ102は例えば、複数の記憶ドライブをRAIDグループ(RG)として制御する。FMPKGに加えて、SAS(Serial Attached Small Computer System Interface)-HDD(Hard Disk Drive)、SATA(Serial Advanced Technology Attachment)-HDD等、他の記憶ドライブが用いられてもよい。以後の説明及び図面において、このような記憶ドライブ(記憶デバイス)をPDEV(Physical Device)と呼ぶことがある。
 ホストIF107A、107Bは、ホスト計算機103A、103Bとの通信を行うインタフェイスである。保守IF106は、管理端末104と接続され管理端末104との通信を行うインタフェイスである。
 管理者は、管理端末104からストレージコントローラ102の管理やメンテナンスを行う。管理端末104は必須要素ではなく、ストレージコントローラ102の管理やメンテナンスなどは、例えば、ホスト計算機から行っても良い。
 上記の計算機のシステムでは、ホスト計算機103A、103BとFMPKG113A~113Eとが、ストレージコントローラ102を介して接続されている。これに代えて、例えば、ストレージコントローラ102を省き、ホスト計算機103A、103BとFMPKG113A~113Eとが、直接接続されても良い。以下において、FMPKG113は、ストレージシステム101における1又は複数のFMPKGを示す。
 なお、本開示の技術は、ハイパーコンバージドシステムに適用することができる。ハイパーコンバージドシステムは、内部にHDDやSSDなどのローカルストレージを含む複数サーバ(ノード)を連結してクラスタを構成する、システムである。仮想化機能を有するハイパーバイザがサーバ内で動作し、ハイパーバイザがソフトウェアで定義した、サーバ仮想マシンとストレージ仮想マシンを動作させる。また、本開示の技術は、記憶ドライブとストレージコントローラとがネットワークを介して接続されるシステムに適用できる。
 本実施例におけるストレージシステム101が管理する情報について説明する前に、論理ボリューム、フラッシュボリュームの構成について説明する。記憶領域の割り当て単位を、ページと呼ぶ。
 図2を用いて、論理ボリューム、仮想ページ、実ページ、RGの関係について説明する。ストレージコントローラ102は、1以上の論理ボリュームを定義して、ホスト計算機103等の上位装置に提供することができる。なお、ホスト計算機103は、ホスト計算機103A、103Bの、1又は複数のホスト計算機を示す。
 本実施例では、論理ボリュームの空間は、仮想ページという単位で分割されているものとし、RG204の記憶領域は、実ページという単位で分割されているものとする。ストレージコントローラ102は、各論理ボリュームの記憶空間を、複数の仮想ページという所定単位の領域に分割して管理している。図2は、仮想ページ202A、202B、202Cを例示する。
 なお、仮想ページのサイズは、主記憶109内の仮想ページ容量308に格納されている。本実施例に係るストレージシステム101においては、すべての仮想ページの容量は同じとするが、ストレージシステム101内に異なるサイズの仮想ページが存在してもよい。
 仮想ページは、ストレージコントローラ102内部で論理ボリュームの記憶空間の管理のためにのみ用いられる。ホスト計算機103は、論理ボリュームの記憶領域にアクセスする際には、LBA(Logical Block Address)などの論理アドレスを用いて、アクセス対象の記憶領域を指定する。
 ホスト計算機103が論理ボリュームへのアクセス要求を発行した時、ストレージコントローラ102は、ホスト計算機103が指定したLBAを仮想ページ番号(各仮想ページに付されている識別番号)及び仮想ページ内の相対アドレス(仮想ページ先頭からのオフセットアドレス)に変換する。
 この変換は、LBAを仮想ページサイズで除算することで実現できる。仮に仮想ページのサイズがP(MB)とすると、論理ボリュームの先頭位置からP(MB)分の領域が仮想ページ#0(#0は仮想ページ番号を表す)として管理され、その次のP(MB)分の領域が仮想ページ#1として管理される。それ以降も同様に、P(MB)の領域がそれぞれ、仮想ページ#2、#3…として管理される。
 ストレージコントローラ102が論理ボリュームを定義した直後は、各仮想ページに物理記憶領域は割り当てられていない。ストレージコントローラ102は、ホスト計算機103から仮想ページに対するライト要求を受け付けた時点ではじめて、当該仮想ページに対して物理記憶領域を割り当てる。仮想ページに割り当てられる物理記憶領域のことを実ページと呼ぶ。図2は、仮想ページ#0(202a)に実ページ203Aが割り当てられている状態を表している。
 実ページは、RG204の複数のフラッシュボリュームの記憶領域を用いて形成される領域である。図2は、FMPKG113A~113Eそれぞれのフラッシュボリューム115A~115Eを示す。図2で例示するRG204のRAIDタイプは、RAID4の3D+1P構成(データドライブ3台、パリティドライブ1台で構成されるRAIDグループ)である。
 本実施例では、FMPKG113A~113EによってRAIDを構成し、フラッシュボリューム115A(FMPKG113A)は、RG204の一つのFMPKGの故障時に、故障したFMPKGに格納されたデータを格納し、RG204に格納されたデータの冗長性を担保するための予備FMPKGである。
 ストレージコントローラ102は、RG204に属するFMPKG113A~113Eのフラッシュボリューム115A~115Eを、ストライプブロックと呼ばれる複数の固定サイズの記憶領域に分割して管理する。たとえば図2において、0(D)、1(D)、2(D)…、またはP0、P1…と記載されているそれぞれの領域が、ストライプブロックを表している。
 本実施例では、ストライプブロックのサイズは、フラッシュボリュームの仮想セグメントのサイズと等しいとする。これと異なり、ストライプブロックと仮想セグメントのサイズは異なっている構成が採用されてもよい。
 図2で、ストライプブロックのうち、P0、P1…と記載されているストライプブロックは、RAID機能により生成される冗長データ(パリティ)の格納されるストライプブロックであり、これを「パリティストライプブロック」と呼ぶ。一方、0(D)、1(D)、2(D)…と記載されているストライプブロックは、ホスト計算機103から書き込まれるデータ(冗長データではないデータ)が格納されるストライプブロックである。このストライプブロックのことは、「データストライプブロック」と呼ばれる。パリティストライプブロックは、複数のデータストライプブロックを用いて生成される冗長データを格納する。
 以下、パリティストライプブロックと、当該パリティストライプブロックに格納される冗長データを生成するために用いられるデータストライプブロックのセットのことを、「ストライプライン」と呼ぶ。本実施例に係るストレージシステム101の場合、たとえばパリティストライプブロックP0は、データストライプブロック0(D)、1(D)、2(D)を用いて生成される冗長データ(パリティ)を格納する。データストライプブロック0(D)、1(D)、2(D)とパリティストライプブロックP0は、同一のストライプラインに属する。
 つまり1つのストライプラインに属する各ストライプブロックは、フラッシュボリューム115B~115E上の同じ位置(アドレス)に存在する。ただし別の実施例として、同一ストライプラインに属する各ストライプブロックが、フラッシュボリューム上の異なるアドレスに存在する構成が採用されてもよい。本実施例に係るストレージシステム101は、図2に示されるように、実ページ(例えば203A、203B)は、1または複数のストライプラインから構成される。
 実ページが仮想ページに割り当てられる場合、データストライプブロック(0(D)、1(D)等)のみが割り当てられ、パリティストライプブロックは割り当てられない。そのため、実ページ上のライトデータの格納される領域の合計サイズは、仮想ページのサイズと等しい。つまり、(実ページのサイズーパリティ格納領域のサイズ)=仮想ページサイズ、の関係が成立する。図2はRAID4の構成例を示すが、例えば、RG204のRAIDタイプがRAID1の場合には、実ページサイズは、仮想ページサイズの2倍である。
 仮想ページ内の領域と、実ページ内の領域との関係(マッピング)は、図2に示されている通りである。つまり、実ページの先頭ストライプラインからパリティを除いた領域(0(D)、1(D)、2(D))が、仮想ページの先頭領域に割り当てられている。それ以降も同様に、実ページの2番目以降の各ストライプラインからパリティを除いた領域(3(D)、4(D)、5(D)…)が、順番に仮想ページの領域に割り当てられる。
 ストレージシステム101は、ホスト計算機103からのアクセス要求で指定されている論理ボリューム上のアクセス位置(LBA)から、仮想ページ番号及び仮想ページ内の相対アドレス(仮想ページ先頭からのオフセットアドレス)を求める。上述のように、仮想ページ内の領域と実ページ内の領域とは規則的にマッピングされているため、ストレージシステム101は、仮想ページ内のアクセス位置に対応付けられているFMPKG113及びそのFMPKG113内の領域(データストライプブロック)を一意に算出できる。
 さらにアクセス位置に対応付けられているデータストライプブロックに加え、そのデータストライプブロックと同一ストライプラインに属するパリティストライプブロックも一意に定まる。
 なお、仮想ページ内の各領域と実ページ内の各領域とのマッピングは、ここで説明したマッピング方法に限定されるものではない。容量仮想化技術においては、各論理ボリュームを定義する時、実記憶媒体の容量よりも各論理ボリュームの合計記憶容量が大きくなるように定義することもできる。このため一般的に、仮想ページ数のほうが、実ページ数より多い。本実施例に係るストレージシステムも、仮想ページ数を実ページ数より多く定義することができる。
 論理ボリューム中の各仮想ページに割り当てられる実ページは、必ずしも同一FMPKG113内の実ページに限定されない。仮想ページ#0に割り当てられる実ページと、仮想ページ#1に割り当てられる実ページが、異なるRG204内の実ページであってもよい。ただし本実施例では、1つの論理ボリュームの仮想ページに割り当てられるべき実ページは全て、RAIDタイプが同じRG204から割り当てられる例を説明する。
 続いて、本実施例におけるストレージシステム101が管理する情報の説明を行う。図3は、ストレージシステム101の主記憶109の中に格納される情報のうち、本実施例に関係する情報を示す。主記憶109は、少なくとも、論理ボリューム情報テーブル301、実ページ情報テーブル302、空き実ページ管理情報ポインタ303、RAIDグループ情報テーブル304、FMPKG情報テーブル305、データ退避アドレステーブル306、予備FMPKG情報テーブル307、仮想ページ容量308を格納している。
 以下具体的に説明する。図4は、論理ボリューム情報テーブル301の形式を示す。論理ボリューム情報テーブル301は、論理ボリュームごとに用意され、論理ボリュームの属性情報を管理する。以下、ある論理ボリューム情報テーブル301によって属性情報が管理される論理ボリュームのことを、「管理対象論理ボリューム」と呼ぶ。論理ボリューム情報テーブル301は、論理ボリュームID401、論理容量402、論理ボリュームRAIDタイプ403、実ページポインタ404を含む。
 論理ボリュームID401は、管理対象論理ボリュームのIDを示す。一般的に、ホスト計算機103は、論理ボリュームの識別子(例えばLogical Unit Number(LUN))、論理ボリューム内のアドレス(LBA)、アクセス先データ長を指定して、アクセス要求(リード要求又はライト要求)を発行する。論理ボリュームID401は、ホスト計算機103が論理ボリュームに対してアクセス要求を発行する時に指定する、論理ボリュームの識別子を格納する。
 論理容量402は、管理対象論理ボリュームの容量を示す。論理ボリュームRAIDタイプ403は、管理対象論理ボリュームのRAIDタイプを表す。論理ボリュームRAIDタイプ403に含まれる情報は、RAID0、RAID1などのRAIDタイプの他、N台の記憶ドライブに対し、1台の記憶ドライブの冗長データを格納する場合、Nを示す数値を含む。
 指定されるRAIDタイプは、少なくとも一つのRG204がもつRAIDタイプである。管理対象論理ボリュームの仮想ページに実ページを割り当てる際、ストレージコントローラ102は、RG204のRAIDタイプが論理ボリュームRAIDタイプ403と同じRG204から実ページを選択する。
 実ページポインタ404は、管理対象論理ボリュームの仮想ページに割り当てられた実ページのページ管理情報(後述する実ページ情報テーブル302)へのポインタである。実ページポインタ404の数は、管理対象論理ボリュームの仮想ページの数(論理容量402を仮想ページ容量308で割った数になるが、余りがでれば+1)である。管理対象論理ボリュームの仮想ページ数がnであれば、実ページポインタ404はn個存在する。
 論理ボリューム情報テーブル301内の複数の実ページポインタ404のうち、先頭からk番目の実ページポインタは、仮想ページ#(k-1)に割り当てられた実ページのページ管理情報(後述する実ページ情報テーブル302)へのポインタである。また、実ページが割り当てられる契機は、論理ボリュームが定義された時ではなく、仮想ページに対して実際にデータ書き込みの要求を受信した契機である。まだ書き込みが行われていない仮想ページに対応する実ページポインタ404は無効値(NULL)である。
 図5は、実ページ情報テーブル302の形式を示す。実ページ情報テーブル302は、実ページについての情報を管理するためのもので、実ページごとに1つの実ページ情報テーブル302が存在する。実ページ情報テーブル302は、RAIDグループ501、実ページアドレス502、空きページポインタ503、ページデータ格納量504を含む。なお、以下の実ページ情報テーブル302の説明の過程で、ある実ページ情報テーブル302によって管理される実ページのことを、「管理対象実ページ」と呼ぶ。
 RG501は、管理対象実ページが属するRGの識別子を示す。以下、RGの識別子のことを、「RGID」と呼ぶ。実ページアドレス502は、管理対象実ページが存在する位置(アドレス)の情報を含む。実ページアドレス502が示すアドレスは、管理対象実ページが属するRG204内の相対アドレスである。
 空きページポインタ503は、管理対象実ページが仮想ページに割り当てられていない場合に用いられる。本実施例において、仮想ページに割り当てられていない実ページのことを、「空き実ページ」又は「空きページ」と呼ぶ。管理対象実ページが仮想ページに割り当てられていない場合、その空きページポインタ503は、別の空きページの実ページ情報テーブル302をポイントする。管理対象実ページが仮想ページに割り当てられている場合、空きページポインタ503はNULL値である。
 ページデータ格納量504は、管理対象実ページに格納されたデータ量を示す。この情報は、管理対象実ページに割り当てられているFMPKG113(の記憶領域)に関する属性情報ではなく、管理対象実ページが割り当てられている仮想ページのデータに関する属性情報である。従って、この仮想ページに別の実ページが割り当てられ、現在の実ページのデータが新しい実ページにコピーされた場合、ページデータ格納量504の値を、新しい実ページの管理情報として引き継ぐ必要がある。
 図6は、RG情報テーブル304の形式を示す。RG情報テーブル304は、RG204についての情報を管理するために用いられる。1つのRF204に対して、1つのRG情報テーブル304が存在する。RG情報テーブル304は、RG ID601、RG RAIDタイプ602、実ページ数603、空き実ページ数604、FMPKGポインタ605を有する。以下、あるRG情報テーブル304で管理されるRG204のことを、「管理対象RG」と呼ぶ。
 RG ID601は、管理対象RGの識別子を示す。RG RAIDタイプ602は、管理対象RGのRAIDタイプを示す。このRAIDタイプは、論理ボリュームRAIDタイプ403について説明したとおりである。実ページ数603及び空き実ページ数604は、それぞれ、管理対象RGの全実ページ数、空き実ページ数を示す。
 FMPKGポインタ605は、管理対象RGに属するFMPKG113のパッケージIDを示す。RG情報テーブル304に含まれるFMPKGポインタ605の数は、管理対象RGに属するFMPKG113の数と等しい。またこの数は、RG RAIDタイプ602によって決まる値である。
 図7は、FMPKG情報テーブル305の形式を示す。FMPKG情報テーブル305はFMPKG113を管理するための情報で、FMPKG ID701、FMPKG仮想容量702、ブロック容量703を含む。FMPKG情報テーブル305は、FMPKG毎に存在する。以下、あるFMPKG情報テーブルで管理されるFMPKGを、管理対象FMPKGと呼ぶ。
 FMPKG ID701は管理対象FMPKG113の識別子(パッケージIDと呼ぶ)である。FMPKG仮想容量702は、管理対象FMPKG113が形成するフラッシュボリュームの記憶領域のうち、ストレージコントローラ102に提供している領域のサイズを示し、本実施例ではこのサイズのことを「仮想容量」と呼ぶ。
 図8は、データ退避アドレステーブル306の形式を示す。データ退避アドレステーブル306は、FMPKG113を管理するための情報であって、エリア番号801、退避フラグ802、退避先FMPKG ID803を含む。データ退避アドレステーブル306は、FMPKG毎に存在する。以下、あるデータ退避アドレステーブルで管理されるFMPKGを、管理対象FMPKGと呼ぶ。
 エリア番号801は、管理対象FMPKGのアドレス空間を所定サイズの領域に分割し、それぞれの領域に割り当てられた一意のIDである。エリアは、他のFMPKGに退避するデータの単位である。一つのエリアは、例えば、ストライプブロックの整数倍に対応する。例えば,ストライプブロックサイズが16kBであるとき、エリアサイズを16MBなどとする。エリアのサイズを適切に選択することで、データ退避後のI/O性能の低下を適切に抑制できる。退避フラグ802は、管理対象FMPKGにおいて、対応するエリア番号801に格納されているデータが、退避先FMPKG113に退避されているか否かを示す。
 退避先FMPKG ID803は、管理対象FMPKGにおいて、対応するエリア番号801に対応する退避先FMPKG113を示す。退避先FMPKG113がない場合、退避先FMPKG ID803は、無効値(NULL)である。
 図9は、予備FMPKG情報テーブル307の形式を示す。予備FMPKG情報テーブル307は、予備のFMPKG113を管理するための情報で、予備FMPKG ID901、エリア番号903、退避フラグ904、退避元FMPKG ID905、使用可能容量902を含む。予備FMPKG情報テーブル307は、いずれのRG204にも属さないFMPKG113の数だけ存在している。以下、ある予備FMPKG情報で管理されるFMPKGを、管理対象予備FMPKGと呼ぶ。
 予備FMPKG ID901は、管理対象予備FMPKGの識別子(予備パッケージIDと呼ぶ)を示す。エリア番号903は、管理対象予備FMPKGのアドレス空間を所定サイズの領域に分割し、それぞれの領域に割り当てられた一意のIDを示す。退避フラグ904は、管理対象予備FMPKGにおける当該エリアに、データが退避済みか否かを示すエントリである。
 退避元FMPKG ID905は、管理対象予備FMPKGにおける当該エリアのデータが退避済みであった場合に、退避元のFMPKG IDが格納されている。また、使用可能容量902は、管理対象予備FMPKGに書き込み可能な容量を示す。つまり、管理対象予備FMPKGの論理容量から、退避データ容量を減算した値が格納される。
 図10は、FMPKG113から上位装置112に通知する障害通知1001の形式を示す。障害通知1001は、依頼種別1002、消失データ容量1003、消失データ情報1004を含む。
 依頼種別1002は、FMPKG113が上位装置に対して依頼するデータ復元処理の種類を示す。消失データ容量1003は、FMPKG113の部分故障時に消失した、消失データ容量を示す。消失データ情報1004は、消失データに関連したアドレスと、レングスの情報を示す。
 以下、図11を用いてFMPKG113の構成を説明する。なお、複数のFMPKG113は、基本的な構成が同じである。FMPKG113は、コントローラユニット1101と、複数のFMChip1110A~1110Hとを有する。FMChip11101110は、FMChip1110A~1110Hの内の、一つ又は複数のFMChipを意味する。
 コントローラユニット1101は、CPU1106、主記憶1107、コントローラ1103、圧縮回路1108、バッファ1104、バッテリ1105を含んで構成される。コントローラユニット1101の内部要素は、バスを介して接続される。主記憶1107は、FMPKG113を制御するためのプログラムを格納する領域及びデータを一時的に格納する領域を含む。CPU1106は、主記憶1107に格納されたプログラムに従って所定の機能部として動作し、FMPKG113を制御する。
 バッファ1104は、データを一時的に格納するキャッシュメモリである。バッテリ1105は、FMPKG113への電源断時に、揮発性の主記憶1107やバッファ1104のデータを、不揮発性のFMCHip1110A~1110Hに格納するための電力を供給する。
 ストレージインターフェース1102は、上位装置112と通信を行うインタフェイスである。コントローラユニット1101は、ストレージインターフェース1102を介して上位装置112と接続されている。上位装置112は、例えばホスト計算機103やストレージコントローラ102である。
 フラッシュメモリインタフェイス1109は、FMChip1110A~1110Hと通信するためのインタフェイスである。コントローラユニット1101とFMChip1110A~1110Hは、フラッシュメモリインタフェイス1109を介して接続される。
 コントローラユニット1101は、FMPKG113の論理アドレス空間を上位装置112に提供する。論理アドレス空間には、FMPKG113内の物理記憶領域が対応付けられる。FMPKG113の外部に提供される論理記憶空間に対応する物理記憶領域をユーザ領域と呼ぶ。
 論理アドレス空間は、FMPKG113で所定サイズの論理セグメントに分割して管理される。コントローラユニット1101は、上位装置112から論理アドレスを指定したリード/ライト要求を受信すると、論理アドレスから物理セグメントを特定し、データのリード/ライトを実行する。また、FMPKG113に部分的に発生する障害を管理する。
 フラッシュメモリの物理記憶領域は、複数のブロックを含み、各ブロックは複数の物理セグメント(単にセグメントとも呼ぶ)を含む。ブロックはデータの消去の単位であり、セグメントはデータの書き込み及び読み出しの単位である。つまり、コントローラユニット1101は、ブロック単位でデータを消去し、セグメント単位でデータの書き込み及び読み出しを制御する。
 また、フラッシュメモリは、データの上書きができないという特性がある。このため、コントローラユニット1101は、あるセグメントに格納されているデータを更新するデータ(更新データ)を受信すると、更新データをデータが格納されていない空きセグメントへ書き込む。そして、論理セグメントと更新前の物理セグメントの対応関係を、その論理セグメントと更新後の物理セグメントの対応関係に変更する。このため、上位装置112はアクセス先の論理アドレスを変更する必要はない。
 コントローラユニット1101は、更新前のデータを無効データ、更新後のデータを有効データとして管理する。無効データが消去されると、無効データが格納されていたセグメントは空きセグメントとなり、データを書き込むことが可能になる。消去はブロック単位で行われる。ブロック内に有効データと無効データが混在している場合、コントローラユニット1101は有効データを他の空きセグメントにコピーして、そのブロック内のデータの消去を行う。この有効データのコピーとブロックの消去の処理を、ガベッジコレクションと呼ぶ。
 このようにフラッシュメモリでは、空きセグメントが存在しない場合、ブロック単位でデータの消去を行わなければ新たにデータを書き込むことができない。また、消去が実行されると、消去が終わるまでデータを書き込むことができないため書き込み性能が低下し、消去そのもののオーバーヘッドによる性能低下も発生する。そこで、フラッシュメモリを記憶媒体とする記憶ドライブは、更新データを書き込む領域(更新領域)が設けられる。
 なお、ユーザ領域と更新領域は物理的に区別されている必要はない。例えば、あるブロックがユーザ領域として使用された後に消去された場合、次は更新領域として使用されてもよい。
 図12は、FMPKG113の論理セグメント及び物理セグメントの構成を示す。コントローラユニット1101は、論理アドレス空間1201を、上位装置112に提供し、論理アドレス空間1201を所定のセグメント(例えば8kB)の論理セグメント1202に分割して管理する。
 コントローラユニット1101は、ブロックを、所定のセグメント(例えば8kB)の物理セグメント1203に分割して管理する。コントローラユニット1101は、物理セグメント1203を論理セグメント1202に割り当てる。
 ブロック1204は、所定数(例えば256個)の物理セグメント1203を含んで構成される。コントローラユニット1101は、FMチップ1110に対するデータの読み書きを物理セグメント1203単位で行い、FMチップ1110に対する消去をブロック1204単位で行う。以後、論理アドレスをLBAと呼ぶ。
 図13は、コントローラユニット1101の主記憶1107に格納される情報を示す。主記憶1107は、論物変換プログラム1301と、論物変換情報テーブル1302と、データ転送制御部制御プログラム1303と、入出力制御部制御プログラム1304と、オペレーティング・システム1305と、フラッシュストレージ制御プログラム1306と、FM管理情報テーブル1307を格納する。CPU1106は、フラッシュストレージ制御プログラム1306に従ってFMPKG113の制御を実行する。
 図14は、論物変換情報テーブル1302の形式を示す。論物変換情報テーブル1302は、論理セグメントごとのエントリを有する。論理セグメントのエントリは、当該論理セグメントの先頭を示すLBA1401と、当該論理セグメントを示す論理セグメント識別子1402と、当該論理セグメントに割り当てられている物理セグメントを示す物理セグメント識別子1403と、を有している。
 当該論理セグメントに物理セグメントが割り当てられていない場合、物理セグメント識別子1403は、未割り当てを示す。物理セグメント識別子は、例えば、FMPKG113内のチップの位置を示すチップ番号と、当該チップ内のダイの位置を示すダイ番号と、当該ダイ内のブロックの位置を示すブロック番号と、当該ブロック内のワード線の位置を示すワード線番号と、当該ブロック内の当該物理セグメントの位置を示すセグメント番号との組み合わせを示す。
 なお、主記憶1107が、FMPKG113内で一意の物理セグメント識別子と、チップ番号とダイ番号とブロック番号とワード線番号とセグメント番号との関連付けを示す関連情報を格納し、コントローラユニット1101が、関連情報に基づいて、物理セグメント識別子から、チップ番号とダイ番号とブロック番号とワード線番号とセグメント番号とを特定しても良い。
 図15は、FM管理情報テーブル1307を示す。FM管理情報テーブル1307は、FMPKG113内で利用可能な資源を管理する。FM管理情報テーブル1307は、有効Blockポインタ1501と、無効Blockポインタ1502と、有効Planeポインタ1503と、無効Planeポインタ1504と、有効Dieポインタ1505と、無効Dieポインタ1506と、有効Chipポインタ1507と、無効Chipポインタ1508とを有する。
 有効Blockポインタ1501は、コントローラユニット1101がデータ格納先として利用可能なBlockの番号を示す。無効Blockポインタ1502は、寿命や故障によってデータ格納に利用できないBlockの番号を示す。
 有効Planeポインタ1503は、コントローラユニット1101がデータ格納先として利用可能なPlaneの番号を示す。
無効Planeポインタ1504は、寿命や故障によってデータ格納に利用できないPlaneの番号を示す。
 有効Dieポインタ1505は、コントローラユニット1101がデータ格納先として利用可能なDieの番号を示す。無効Dieポインタ1506は、寿命や故障によってデータ格納に利用できないDieの番号を示す。
 有効Chipポインタ1507は、コントローラユニット1101がデータ格納先として利用可能なChipの番号を示す。無効Chipポインタ1508は、寿命や故障によってデータ格納に利用できないChipの番号を示す。
 FMPKG113の物理記憶領域に障害が発生すると、その物理記憶領域に格納されたデータが消失する。コントローラユニット1101は、消失したデータを復元することができない。このため、コントローラユニット1101が、障害が発生した物理記憶領域に対応する論理アドレス領域を特定し、上位装置112に通知する。上位装置112は、RGの他のFMPKG113のデータから、消失したデータを復元することができる。
 しかし、一部に障害が発生したFMPKG113は、その物理記憶領域が故障により減少しているため、復元したデータを格納する空き領域が不足する場合がある。そこで、ストレージシステム101は、連続論理アドレス領域のデータを、予備FMPKG113に退避することで、復元したデータを格納する物理記憶領域を部分故障FMPKG113において確保した後、データを復元する。退避されるデータ量は、復元したデータを格納するために不足している領域以上であり、例えば、復元すべきデータ総量と同一又はそれより多いデータである。
 ストレージシステム101は、退避したデータへのアクセスを予備FMPKG113に、それ以外のデータのアクセスを部分故障FMPKG113へと、アクセス先を切り替える。連続する論理アドレス領域のデータが予備FMPKG113に退避されているので、故障領域に対応した離散的な論理アドレスのデータを予備FMPKG113に退避する場合と比較して、シーケンシャルアクセス性能を低下させずにデータの冗長度復元が可能になる。
 次に、上記管理情報を用いて、ストレージコントローラ102とFMPKG113が実行する処理の説明を行う。まず、ストレージコントローラ102で行われる処理について説明する。なおストレージコントローラ102で行われる処理は原則として、ストレージコントローラ102内のプロセッサ108がプログラムを実行することで実現される。また、そのプログラムは主記憶109内に格納されている。図16は、主記憶109内に格納された本実施例に関するプログラムを示す。
 本実施例に関するプログラムは、リード処理実行部1601、ライト要求受付部1602、ライトアフタ処理実行部1603、部分故障処理実行部1604を含む。これらのプログラムは、上位レベルのウェアレベリング技術、容量仮想化技術を実現する。なお、以下の説明においては、プログラム(リード処理実行部1601等)を主語とする処理の説明は、プログラム(リード処理実行部1601等)がCPU108で実行されることで、処理が行われることを意味する。
 なお、すでに述べたが、本実施例に係るストレージシステム101では、FMPKG113が、ウェアレベリング機能と下位レベルの容量仮想化機能を実行する。ただし別の実施例において、ウェアレベリングと下位レベルの容量仮想化機能をストレージコントローラ102が実行してもよい。その場合、ウェアレベリング機能と下位レベルの容量仮想化機能を実現するプログラムが、ストレージコントローラ102で実行される。
 上位レベルのプログラム(上位レベルの容量仮想化機能を実現するプログラム等)と下位レベルのプログラム双方が、ストレージコントローラ102で実行されるので、プログラム間のインタフェイスが異なってくるが、上位レベルのプログラムが実行する内容は基本的に大きな相違はない。
 本実施例は、下位レベルのウェアレベリング技術及び容量仮想化技術を実現するのはFMPKG113であることを前提に、リード処理実行部1601、ライト要求受付部1602、ライトアフタ処理実行部1603、部分故障処理実行部1604の処理フローを詳細に説明する。
 本実施例は、ホスト計算機103からのリード要求又はライト要求で指定されるデータアクセス範囲は、フラッシュメモリのリード/ライト単位である仮想セグメント境界に一致していることを前提とする。ホスト計算機103から指定されるアクセス範囲が、仮想セグメント境界に一致していない場合でも、論理ボリュームはアクセス可能である。例えば、仮想セグメントの一部の領域がライト範囲に指定された場合、FMPKG113は仮想セグメント全体を読み出し、指定された部分領域のみ更新し、仮想セグメント全体を書き込む。
<ストレージコントローラによる故障検知>
 図17は、部分故障処理実行部1604が、FMPKG113の故障を検知するフローを示す。本フローは、あるFMPKG113に部分故障が生じたことを検知した場合に実施される。以降、故障を通知したFMPKG113のことを、部分故障FMPKG113と呼ぶ。また、故障により消失したデータを消失データ、消失データの論理アドレスを消失データアドレスと呼ぶ。
 ステップ1701において、部分故障処理実行部1604は、故障FMPKG113から障害情報を受領する。
部分故障処理実行部1604が受領する障害情報は、消失データアドレスと、サイズと、コレクション種別とを含む。
 ステップ1702において、障害情報を受領した部分故障処理実行部1604は、まず、コレクション種別情報を参照し、処理の内容を決定する。コレクション種別情報がコレクション依頼である場合(1702:YES)、部分故障処理実行部1604は、ステップ1703を実行する。
 ステップ1703において、部分故障処理実行部1604は、ステップ1701で受領した消失データアドレスを元に、部分故障FMPKG113に対してデータ復元処理を行う。データ復元処理は、通知されたアドレスに関連付けられたデータをRAID機構により復元し、部分故障FMPKG113に書き戻す。これにより、消失データが復元され、データの冗長度が復元する
 コレクションデータ種別が、コレクション依頼でない場合、つまり、他ドライブへのデータ退避依頼の場合(1702:NO)、ステップ1704において、部分故障処理実行部1604は、予備FMPKG情報テーブル307に登録されている予備FMPKG113から、所定の予備FMPKG113を退避先として選択し、予備FMPKG情報テーブル307の使用可能容量902を参照してその空き容量を取得する。退避先の選択方法は、図18を参照して後述する。
 複数のFMPKG113を退避先FMPKG113として選択でもよいが、本実施例で、1つの予備FMPKG113の場合について記述する。以降、退避先のFMPKG113を退避先FMPKG113と呼び、退避先FMPKG113へ退避するデータを退避データ、退避データの論理アドレスを退避データアドレスと呼ぶ。
 ステップ1705において、部分故障処理実行部1604は、ステップ1704で取得した退避先空き容量と、ステップ1701で取得した退避データ量を比較する。退避データ量が小さい場合(1705:YES)、ステップ1706において、部分故障処理実行部1604は、データの退避処理を行う。処理内容は後述する。ステップ1706が完了した後、上位装置112は、部分故障FMPKG113に対してステップ1703を行う。
 一方、退避データ量が大きい場合(1705:NO)、故障FMPKG113のデータを退避することができないため、部分故障処理実行部1604は、ステップ1707において、部分故障FMPKG113を閉塞させ、FMPKG113の交換を促す。
<データ退避>
 次に、図18を用いてデータ退避処理(1706)の詳細を説明する。ステップ1801において、部分故障処理実行部1604は、退避先FMPKG113のIDを決定する。複数の予備FMPKG113が存在する場合、部分故障処理実行部1604は、それらのうちの一台を選択する。退避先FMPKG113として使用されているFMPKG113が存在する場合、部分故障処理実行部1604は、それを選択する。
 ステップ1802において、部分故障処理実行部1604は、ステップ1701で取得した故障FMPKG113のIDと、データ退避アドレステーブル306を用いて、退避データを決定する。具体的には、部分故障処理実行部1604は、データ退避アドレステーブル306に格納されている退避フラグ802と、予備FMPKG113の予備FMPKG情報テーブル307の退避フラグ904が共に"退避なし"を示すエリア番号を検索する。図8及び図9に示した例であれば、エリア1が選択される。エリア単位にデータを退避することで、その後のI/O性能の低下を抑制できる。
 ステップ1802において選択した退避データのデータ量が、消失データ量以上である場合(1803:Yes)、ステップ1804が実行される。ステップ1801において選択した退避データのデータ量が、消失データ量よりも小さい場合(1803:No)、部分故障処理実行部1604は、更なる退避データ選択を試みるため、ステップ1802を実行する。消失データより大きい容量の退避データを選択できるまで繰り返す。選択されるエリアの番号(アドレス)は不連続でもよく、連続でもよい。
 なお、上記例は、1台の故障FMPKG113のデータを1台の退避先FMPKG113に退避するが、複数台の故障FMPKG113が、1台の退避先FMPKG113を共有してもよい。逆に、1台の故障FMPKG113に対して、複数台の退避先FMPKG113を使用することも可能である。
 ステップ1804において、部分故障処理実行部1604は、ステップ1801で取得した退避データと退避先FMPKG113の情報に基づいて、退避データの退避先FMPKG113へのコピーを実行する。退避データに、消失データが含まれる場合、当該消失データは、RAID機構により復元されて、退避先FMPKG113に格納される。これにより、消失データを他のFMPKG113に移動でき、消失データの論理アドレスによらず退避データを選択できる。
 部分故障処理実行部1604は、退避データが部分故障FMPKG内で対応付けられていたLBAと同一となるように、退避先FMPKG113のLBAを退避データに対応付ける。これにより、RAIDストライプラインの再構築が不要となる。
 ステップ1804の後データ退避が完了した場合(1805:YES)、部分故障処理実行部1604は、ステップ1806において、データ退避アドレステーブル306と、予備FMPKG情報テーブル307について、退避データに対応したエリア番号のエントリを更新する。
 既に例示したように、エリア番号1を退避データとして選択する場合、部分故障処理実行部1604は、エリア番号1のエントリについて、退避フラグ802および退避フラグ904を"退避"に更新し、退避先FMPKG ID803に退避先FMPKG113のIDを、退避元FMPKG ID905に、部分故障FMPKGのIDを、それぞれ格納する。加えて、使用可能容量902の値を更新する。
 本処理によって、上位装置112による退避データへのアクセスが、退避先FMPKG113へ発行されるようになる。退避データへのアクセス処理の詳細は後述する。ステップ1806の後、ステップ1807が実行される。ステップ1807において、部分故障処理実行部1604は、部分故障FMPKG113から、退避データを削除する。本処理によって、部分故障FMPKG113内部の未使用物理セグメントが増加するため、消失データの格納が可能になる。
 ステップ1805において、退避先FMPKG113、又は部分故障FMPKG113に何らかの異常が起こった場合、データ退避が完了しない(1805:NO)。この時、ステップ1808が実行される。
 ステップ1808において、部分故障処理実行部1604は、故障FMPKG113と退避先FMPKG113のどちらに異常が発生したかを特定する。退避先FMPKG113が異常を検出していた場合(1808:退避先)、ステップ1810が実行される。
 ステップ1810において、部分故障処理実行部1604は、異常を検出したFMPKG113の代わりに退避先FMPKG113として選択できる他の予備FMPKG113が存在するかを判定する。他の予備FMPKG113が存在する場合(1810:NO)、部分故障処理実行部1604は、ステップ1803に戻る。
 他の予備FMPKG113が存在しない場合(1810:YES)、かつ、異常検出箇所が退避先FMPKG113である場合(1808:退避元)、データの復元は不可能である。この場合、ステップ1809が実行される。
 ステップ1809において、部分故障処理実行部1604は、復元の失敗処理を実行する。失敗処理は、例えば、部分故障FMPKG113を閉塞させ、管理端末104を介して、部分故障FMPKG113の交換をユーザに推奨する。
 上記例は、消失データ以上の量のデータを予備FMPKG113に退避する。他の例は、部分故障FMPKG113の残予備領域容量(予備領域の空き容量)と消失データサイズとに基づき、退避するデータ量を決定してもよい。例えば、部分故障処理実行部1604は、部分故障FMPKG113から残予備領域容量の情報を取得し、消失データ量と残予備領域容量と差分に所定値(0でもよい)を加算した量のデータを退避する。
<ホストリード>
 図19を用いて、リード処理実行部1601の処理フローを詳細に述べる。リード処理実行部1601は、ストレージコントローラ102がホスト計算機103からリード要求を受け付けたときに、実行される。
 ステップ1901において、リード処理実行部1601(CPU108)は、受け取ったリード要求で指定されたリード対象領域のアドレスから、リード対象領域に対応する仮想ページの仮想ページ#と仮想ページ内の相対アドレスを計算する。
 ステップ1902において、リード処理実行部1601は、リード対象データが、キャッシュメモリ(主記憶109)に格納されているか(ヒットしているか)をチェックする。これは、公知の技術である。ヒットしている場合(ステップ1902:YES)、次にステップ1910が行われる。ヒットしていない場合(ステップ1902:NO)、次にステップ1904が行われる。
 ステップ1903において、リード対象データをキャッシュメモリにロードする必要がある。リード処理実行部1601は、論理ボリューム情報テーブル301の実ページポインタ404を参照することで、リード対象仮想ページに割り当てられている実ページの実ページ情報テーブル302を特定する。リード対象仮想ページに割り当てられた実ページを、以下の説明では「リード対象実ページ」と呼ぶ。
 ステップ1904において、リード処理実行部1601は、特定された実ページ情報テーブル302のRG ID501、実ページアドレス502から、リード対象実ページが属するRG204とリード対象実ページ(の先頭)が位置するRG204内アドレスを算出する。
 ステップ1905において、リード処理実行部1601は、ステップ1901で得た仮想ページ内の相対アドレスとRG RAIDタイプ602から、リード対象データの格納されている実ページ上の位置(具体的には実ページ内相対アドレス)を計算する。リード処理実行部1601は、計算した実ページ内相対アドレス、RG RAIDタイプ602、FMPKGポインタ605を用いて、リード対象データの格納されているFMPKG113のID、及びそのFMPKG113内のアドレスを特定する。
 ステップ1906において、リード処理実行部1601は、ステップ1905で取得したFMPKG113 IDを用いて、該当するFMPKG113 IDに関連したデータ退避アドレステーブル306を参照する。次に、ステップ1905で取得したFMPKG113内のアドレスが所属する、エリア番号を特定する。
 特定したエリア番号に対応した退避フラグが「退避」を示している場合、リード処理実行部1601は、対応する退避先FMPKG113 IDを取得し、リードするFMPKG113のIDを、対応する退避先FMPKG113 IDで置換する。特定したエリア番号に対応した退避フラグが「退避なし」を示していた場合、リード処理実行部1601は、何も行わない。
 ステップ1907において、 リード処理実行部1601は、ステップ1906で特定したFMPKG113のアドレスに対して、リード要求を発行する。ステップ1908において、リード処理実行部1601は、FMPKG113からデータが送られてくるのを待つ。
 ステップ1909において、リード処理実行部1601は、主記憶109に、リード対象データを格納するための領域を確保し、FMPKG113から送られてきたデータを、確保された領域に格納する。この後、ステップ1910が行われる。ステップ1910において、リード処理実行部1601は、リード対象データを主記憶109から読み出してホスト計算機103へ送り、処理を完了する。
<ホストライト>
 図21は、ライト要求受付部1602の処理フローを示す。ライト要求受付部1602は、ストレージコントローラ102がホスト計算機103からライト要求を受け付けたときに、実行される。
 ステップ201において、ライト要求受付部1602(CPU108)は、受け取ったライト要求で指定されたライト対象領域のアドレスから、ライト対象領域に対応する仮想ページの仮想ページ#と仮想ページ内の相対アドレスを計算する。
 ステップ2102において、ライト要求受付部1602は、ライト要求で指定されている論理ボリュームの論理ボリューム情報テーブル301を特定する。そしてライト要求受付部1602は、ステップ2101で特定された仮想ページに実ページが割り当てられているかを、特定した論理ボリューム情報テーブル301内の実ページポインタ404を参照することでチェックする。実ページが割り当てられている場合、ステップ2103はスキップされ、次にステップ2104が実行される。
 ステップ2103において、ライト要求受付部1602は、ライト対象領域に対応する仮想ページに実ページを割り当てる。ライト要求受付部1602は、ステップ2102で特定された論理ボリューム情報テーブル301のRAIDタイプ403と、各RG情報テーブル304のRG RAIDタイプ602や空き実ページ数604等を参照することで、どのRG204の実ページを割り当てるかを決定する。
 ライト要求受付部1602は、決定されたRG204の空き実ページ管理情報ポインタ303を参照して、先頭の空き実ページポインタ404を、ライト対象領域が属する仮想ページの実ページポインタ404が示すように変更する。これにより、ライト対象領域が属する仮想ページに実ページを割り当てたことになる。
 なお、空き実ページ管理情報ポインタ303は、次の実ページ情報テーブル302(仮想ページに割り当てた実ページの実ページ情報テーブル302の中の空きページポインタ503が示す実ページ情報テーブル302)を示すように変更される。さらに、仮想ページに割り当てた実ページの実ページ情報テーブル302の中の空きページポインタ503は、ヌルにされる。
 ライト要求受付部1602は、当該実ページに対応するRG情報テーブル304の空き実ページ数604の数を減らす。本実施例は、ライト要求を受け付けたときに仮想ページを実ページに割り当てるが、この割り当て処理は、FMPKG113へデータを格納するまでに実行されればよい。
 ステップ2104において、ライト要求受付部1602は、ホスト計算機103から当該ライト要求で指定されたライトデータを、主記憶109に格納する。主記憶109にライトデータを格納する際には、ライト要求受付部1602は、そのライトデータの書き込み位置情報(FMPKG113のID及び、フラッシュボリューム上アドレス(LBA)等)を付加して格納する。その後、処理を終了する。
 RG204は、RAID構成を有するので、主記憶109上に格納したライトデータに対応する冗長データを生成する必要がある。冗長データは、ライトデータの格納されたデータストライプブロックと同一ストライプラインに属するパリティストライプブロックに格納される。これは、公知の方法であるので、詳細に説明はしない。冗長データの生成は、例えばステップ2104の直後に行われ。CPU108は冗長データを作成すると、一旦主記憶109に冗長データを格納する。
 先に述べたとおり、仮想ページ上のアドレスから、データを格納するデータストライプブロックに加えて、そのデータに対応する冗長データを格納すべきパリティストライプブロックも一意に定まる。退避データがあった場合でも、リード処理実行部1601の処理フローで述べたのと同様にデータ退避アドレステーブル306を参照することで、退避先FMPKG113のアドレスを取得することが可能です。なお、主記憶109に冗長データを格納する際、ライトデータと同様に、CPU108は書き込み位置情報を冗長データに付加する。
 ライトデータ、冗長データは、ライトアフタ処理実行部1603によって、FMPKG113に書き込まれるが、FMPKG113にとって、いずれもFMPKG113へ書き込むデータなので、ライトデータと冗長データとを区別する必要はない。そのため、ライトアフタ処理実行部1603は、ライトデータを書き込む場合と冗長データを書き込む場合とで、同様の処理を行う。
<デステージ>
 図22は、ライトアフタ処理実行部1603の処理フローを示す。ライトアフタ処理実行部1603は、CPU108が所定の契機で実行する。例えば、定期的にライトアフタ処理実行部1603が実行されてもよい。主記憶109上のダーティデータ量が所定量を超過した時点でライトアフタ処理実行部1603が実行されてもよい。
 ライトアフタ処理実行部1603は、ホスト計算機103から受け取ったライトデータ又は冗長データを、FMPKG113に書き込む処理を実行する。ライトアフタ処理実行部1603は、ライトデータ及び冗長データを、FMPKG113に書き込むべきデータとして区別せずに処理する。
 ステップ2201において、ライトアフタ処理実行部1603(CPU108)は、主記憶109をサーチして、FMPKG113に書き込むべきデータを決定する。ライトアフタ処理実行部1603は、見出したデータに付与されている書き込み位置情報を取り出す。ここでは、ライトアフタ処理実行部1603によって書き込まれる領域の範囲が、複数のFMPKG113に跨らない例を説明する。
 ステップ2202において、ライトアフタ処理実行部1603は、書き込み位置情報に基づいて、対象のFMPKG113にライト要求を発行する。ライトアフタ処理実行部1603は、冗長データを書き込む場合には、この冗長データを重複排除の対象にしない旨の指示を出してもよい。
 ステップ2203において、ライトアフタ処理実行部1603は、ライト要求の完了を待つ。ライトアフタ処理実行部1603は、FMPKG113から当該ライト要求に関する終了報告を受信すると、処理を終了する。
<FMPKGによる障害検知>
 次に、部分故障FMPKG113内部のコントローラユニット1101で行われる処理について説明する。なおコントローラユニット1101で行われる処理は原則として、コントローラユニット1101内のプロセッサ1106がプログラムを実行することで実現される。また、そのプログラムは主記憶1107内に格納されている。
 図13は、主記憶1107内に格納された本実施例に関するプログラムを示す本実施例に関するプログラムは、障害検知プログラム1308である。なお以下の説明において、プログラム(障害検知プログラム1308)を主語とする、処理は、そのプログラム(障害検知プログラム1308)がプロセッサ1106で実行されることで実行されることを意味する。
 図20は、あるFMPKG113のコントローラユニット1101による、FMPKG113内部の故障を検知する障害検知プログラムの処理を示す。この処理が実行される契機は、例えば、上位装置112からのI/O要求に対する処理の結果、I/O処理が完了しなかった場合である。ただし、これは実行契機を限定するものではなく、上位装置112からのI/O要求が無くとも、定期的に実行してもよいし、FMPKG113の内部処理で実行されてもよい。
 ステップ2001において、障害検知プログラム1308は、ある物理領域に格納されたデータのリードを試みる。この物理領域は、例えば、直前の上位装置112からのI/O処理でアクセスされた物理ページである。一定時間内でFMPKG113内の全ての領域にアクセスするように予めスケジュールされた領域でもよい。効率的にFMPKG113内全てにアクセスが可能なよう、ブロック単位で間引かれていてもよい。
 ステップ2001の結果、格納されたデータが全て正しくリードできた場合(2002:NO)、故障は当該範囲に存在せず、診断処理は終了する。一方、ステップ2001の処理の結果、格納されたデータの一部が正しく読めなかった場合、(2002:YES)、その物理領域は故障とみなされ、ステップ2003が実行される。
 ステップ2003において、より上位の物理単位に同様の故障がないかどうかを判定するために、障害検知プログラム1308は、障害範囲検索を行う。障害検知プログラム1308は、障害検知プログラム1308は、例えば、故障ページと同じブロックから数ページを読む又は同じプレーンを共有するブロックから数ページを読む。この処理の結果、物理障害範囲が特定される。その後、障害検知プログラム1308は、物論変換によって論理アドレスと、レングス情報が特定し、故障によって失われたデータ量を特定する。
 障害検知プログラム1308は、この処理で判明した故障部位を、FM管理情報テーブル1307に登録する。故障範囲がBlockであれば、故障Block番号が有効Blockポインタ1501から削除され、無効Blockポインタ1502に登録される。
 故障範囲がPlane場合、上記有効Blockポインタ1501及び無効Blockポインタ1502に加えて、有効Planeポインタ1503及び無効Planeポインタ1504にも情報を削除及び登録される。
 Die、Chipの場合も同様に、当該の故障範囲のポインタ登録に加えて、下位範囲の故障範囲も登録される。障害範囲特定後、消失データの論理アドレス取得を行う。論理アドレス取得は、例えば、論物変換情報テーブル1302を用いて行う。
 ステップ2004において、障害検知プログラム1308は、消失データ量(障害範囲)と空き予備領域を比較する。空き予備領域から消失データ量を引いた値が所定値(例えば0)以上である場合(2004:NO)、ステップ2005が実行される。
 ステップ2005において、障害検知プログラム1308は、上位装置112に対して、データ復元依頼を発行する。部分故障FMPKG113が予め持っている予備領域をユーザデータ用に割り当てることで、故障データの復元が可能である。従って、データ復元依頼発行に先立って、障害検知プログラム1308は、消失データ量と、消失データの論理アドレスを基に、障害通知1001を作成する。障害検知プログラム1308は、依頼種別1002に、RAIDによる自FMPKG113へのデータ復元依頼を設定し、消失データ情報1004に、消失データの論理アドレスとレングスを設定する。
 空き予備領域から消失データ量を引いた値が所定値(例えば0)より小さい場合(2004:YES)、障害検知プログラム1308は、ステップ2006を実行する。ステップ2006において、障害検知プログラム1308は、上位装置112に対して、データ退避依頼を発行する。
 データ退避依頼に先立って、障害検知プログラム1308は、消失データ量と、消失データの論理アドレスを基に、障害通知1001を作成する。障害検知プログラム1308は、依頼種別1002に、RAIDによる退避先FMPKG113へのデータ復元依頼を設定し、消失データ情報1004に、消失データの論理アドレスとレングスを設定する。
 上記例は、FMPKG113がデータ退避/復元の判定を実行するが、代わりに、ストレージコントローラ102がデータ退避/復元の判定を実行してもよい。ストレージコントローラ102は、FMPKG113から消失データの情報に加え、空き予備領域容量の情報を取得する。
 本実施例は、1台のFMPKGを論理アドレスで分割して管理する。図23を用いて、フラッシュボリューム(FMPKG)、仮想FMPKG(以降、VFMPKGと記載)、及び実ページの関係について説明する。図23は、フラッシュボリューム115A~115E、VFMKG2301A~2301H、実ページ203Aを例示する。以下において、VFMKG2301は、1又は複数のVFMKGである。
 本実施例は、1台のFMPKG113のフラッシュボリューム115を、論理アドレスで複数の領域に分割し、分割した領域ごとに仮想的なFMPKG番号であるVFMPKG番号を付与する。上位装置112は、分割した一つの領域を1台のFMPKGと認識する。上位装置112は、複数のVFMPKG2301によってRAIDを構成する。本実施例は、VFMPKG単位で、データを退避させる。これにより、退避後のI/O性能の低下を効果的に抑制できる。なお、本実施例は、実施例1におけるエリアの情報は不要である。
 図24は、VFMPKG管理テーブル2401を示す。VFMPKG管理テーブル2401は主記憶109に格納されている。VFMPKG管理テーブル2401の数は、FMPKG113の数と一致する。
 図24に示すように、VFMPKG管理テーブル2401は、FMPKG番号2501と、開始アドレス2502と、終端アドレス2503と、及び、VFMPKG番号2504とを有する。開始アドレス2502及び終端アドレス2503は、VFMPKG2301が、所属するFMPKG113のどのアドレス範囲から切り出されたかを示す。
 以下に、部分故障発生時のデータ退避処理におけるストレージシステムの動作を説明する。動作の大部分は実施例1と共通しており、以下では、差分について主に説明する。また、実施例1で記述したFMPKG113は、本実施例においては、特に言及のない限り、VFMPKG2301を指す。
 図25は、部分故障処理実行部1604が、故障VFMPKG2301の退避データを退避先VFMPKG2301へ退避するフローを示す。本フローは、実施例1に記載のステップ1706において実行される。
 ステップ2601において、部分故障処理実行部1604は、実施例1で記載したステップ1701において取得した、故障FMPKG113のIDと、退避データ量と、予備FMPKG情報テーブル307とを用いて、退避データと退避先VFMPKG2301を決定する。本例において、一つの予備FMPKG情報テーブル307は、一つの予備VFMPKG2301の情報を示し、エリア番号の欄が省略される。退避データ情報テーブル306においてもエリア番号欄は省略される。
 図26を用いて、ステップ2601の詳細を述べる。ステップ2701において、部分故障処理実行部1604は、予備FMPKG情報テーブル307を用いて、退避先VFMPKG2301を選択する。ステップ2702において、部分故障処理実行部1604は、部分故障FMPKG113に含まれるVFMPKG番号の中から一つのVFMPKG番号を選択する。選択したVFMPKG2301を、退避元候補VFMPKG2301と呼ぶ。
 ステップ2703において、次に部分故障処理実行部1604は、RG情報テーブル304を用いて、退避元候補VFMPKG2301が所属するRG204を特定し、退避元候補VFMPKG2301と同じRG204を構成するVFMPKG番号2504のリストを取得する。ステップ2704において、部分故障処理実行部1604は、取得したVFMPKGのIDが、退避先FMPKG113に含まれるかどうかを、退避先FMPKG113に関連したVFMPKG管理テーブル2401を用いて判定する。
 取得したVFMPKG番号2504のリストに含まれるVFMPKG番号2504の1つ以上が、退避先FMPKG113に含まれている場合(2704:YES)、退避元候補VFMPKG2301のデータは、退避先FMPKG113に退避できない。退避先FMPKG113が故障した場合、退避元候補VFMPKG2301が所属するRG204において、2点障害となるためである。
 そのため、部分故障処理実行部1604は、新たに退避元候補VFMPKG2301を選択し直す。なお、部分故障処理実行部1604は、この再選択を、規定回数で打ち切り、処理を終了してもよい。その場合、部分故障処理実行部1604は、退避失敗として失敗処理を行う。
 取得したVFMPKG番号2504のリストに含まれるVFMPKG番号2504が全て、退避FMPKG113から生成されたものでない場合(2704:NO)、ステップ2705が実行される。ステップ2705において、部分故障処理実行部1604は、退避元候補VFMPKG2301を、退避元VFMPKG2301として確定する。
 ステップ2706において、部分故障処理実行部1604は、退避元VFMPKG2301として確定した1ないしは複数のVFMPKG2301の容量と、消失データの容量を比較し、消失データの容量の方が大きい場合(2706:NO)、故障FMPKG113から、新たな退避元候補VFMPKG2301を選択するため、ステップ2701に戻る。退避元VFMPKG2301の方が大きい場合(2706:YES)、退避元VFMPKG2301の選択を終了する。
 次に、再び図25を用いて、ステップ2602について述べる。RG情報更新2602において、部分故障処理実行部1604は、ステップ2601で決定した退避元VFMPKG番号と、退避先VFMPKG番号を基に、退避元VFMPKG2301の所属していたRG情報テーブル304において、退避元VFMPKG2301を示していたFMPKGポインタ605のエントリを、退避先VFMPKG番号で置換する。
 上述のように、VFMPKG単位でデータを退避することによって、データ退避後のI/O性能の低下を効果的に抑制することができる。
<ホストリード>
 図27を用いて、リード処理実行部1601の処理フローを詳細に述べる。リード処理実行部1601は、ホスト計算機103から、ストレージコントローラ102が、リード要求を受け付けたときに実行される。
 実施例1は、ステップ1906において、退避先FMPKG113のIDを取得する。本実施例では、既にRG情報テーブル304に含まれるFMPKGポインタ605が、退避VFMPKG2301に書き換えられているため、データが格納されているVFMPKGを一意に特定することが可能であり、ステップ1906は不要である。
 代わりに、リード処理実行部1601は、ステップ2801を実行する。ステップ2801において、リード処理実行部1601は、VFMPKG管理テーブル2401を用いて、VFMPKG2301内相対アドレスを、FMPKG113内相対アドレスへと変換する。具体的には、VFMPKG2301内相対アドレスに、当該VFMPKG2301の開始アドレス2502を足し合わせた値が、FMPKG113内相対アドレスである。以降は実施例1に示すものと同様である。また、ホストライトも実施例1と同様のため、その説明を省略する。
 実施例1及び実施例2は、データ退避アドレステーブル306が主記憶109に格納されているが、本実施例では、データ退避アドレステーブル306は主記憶1107に格納される。本実施例においては、実施例1、2で述べた要素に加えて、データ退避アドレステーブル306及び予備FMPKG情報テーブル307が、主記憶1107に格納される。
 本実施例にける、部分故障発生時のデータ退避処理におけるストレージシステム101の動作を説明する。なお、動作の大部分は、実施例1及び実施例2に記載のものと共通しており、以下では、差分について主に説明する。差分動作は、実施例1、2で言及した、データ退避アドレステーブル306及び予備FMPKG情報テーブル307の参照と更新である。
 本実施例においてこれらはFMPKG113内の主記憶1107に格納されているため、ストレージシステム101において実行される各プログラムは、これらの参照及び更新コマンドをFMPKG113に発行し、その結果を受領することで参照と更新を実施する。
<ホストリード>
 図28を用いて、リード処理実行部1601の処理フローを詳細に述べる。リード処理実行部1601は、ホスト103から、ストレージコントローラ102が、リード要求を受け付けたときに実行される。実施例1及び実施例2は、それぞれステップ1906及びステップ2801において、退避先FMPKG113 のIDを取得するが、本実施例は省略する。
 代わりに、ステップ1907にてリード要求を発行したFMPKG113からの応答において、要求データではなく、退避FMPKG IDが受領される場合がある(ステップ3001:NO)。この時、ステップ3002が実施される。ステップ1907において、リード要求を発行したFMPKG113からの応答により要求データが受領された場合、実施例1、2と同様の処理が実行されるため、説明を省略する。
 ステップ3002において、リード処理実行部1601は、ステップ1905で取得したアドレスを、ステップ3001において受領した退避FMPKG IDで置換し、再度ステップ1907を実行する。これにより、退避データの受領が可能となる。
<デステージ>
 図29は、ライトアフタ処理実行部1603の処理フローである。ライトアフタ処理実行部1603は、CPU108により所定の契機で実行される。例えば、定期的にライトアフタ処理実行部1603が実行されてもよい。主記憶109上のダーティデータ量が所定量を超過した時点でライトアフタ処理実行部1603が実行されてもよい。
 ステップ2203において、ライトアフタ処理実行部1603は、ライト要求の完了を待つ。ライトアフタ処理実行部1603は、FMPKG113から当該ライト要求に関する終了報告が返却されると(ステップ3101:YES)、処理を終了する。
 ステップ2203の後、FMPKG113から当該ライト要求に関連する、退避FMPKG IDが返却されることがある(ステップ3101:NO)。これは、指定されたアドレスのデータが、退避データとして別のFMPKG113に格納されていることを示す。そこで、ライトアフタ処理実行部1603は、次にステップ3102を実行する。
 ステップ3102において、ライトアフタ処理実行部1603は、ステップ2201で取得した書き込み位置情報を、ステップ3101で受領した退避FMPKG IDで置換する。その後、ライトアフタ処理実行部1603は、再度ステップ2202を実行する。これにより、退避FMPKG113へのデータライトが可能になる。
<FMPKG内部処理>
 次に、FMPKG113内のコントローラユニット1101で行われる処理について説明する。コントローラユニット1101で行われる処理は原則として、コントローラユニット1101内のプロセッサ1106がプログラムを実行することで実現される。また、そのプログラムは主記憶1107内に格納されている。主記憶1107内に格納された本実施例に関するプログラムは、図13に示されている。
 本実施例に関するプログラムは、フラッシュストレージ制御プログラム1306、入出力制御部制御プログラム1304、論物変換プログラム1301である。なお以下の説明においては、プログラム(フラッシュストレージ制御プログラム1306等)を主語とする処理は、そのプログラム(フラッシュストレージ制御プログラム1306等)がプロセッサ1106で実行されることで実現されることを意味する。
 図30は、本実施例におけるFMPKG113内部のI/O処理フローを示す。ステップ3201において、入出力制御部制御プログラム1304は、上位装置112からI/Oコマンドを受領する。I/Oコマンドは、主に、リードコマンド又はライトコマンドである。以下では、リードコマンドの例を説明する。受領したコマンドは、LBA情報を含む。
 ステップ3202において、論物変換プログラム1301は、入出力制御部制御プログラム1304が受領したコマンドに含まれるLBAを基に、データ退避アドレステーブル306を参照し、当該LBAに関連するデータが、退避データか否かを判定する。
 退避データでない場合(ステップ3203:NO)、当該LBAに関連するデータは、自FMPKG113内に格納されている。そのため、論物変換プログラム1301によってステップ3206が実行される。ステップ3206において、論物変換プログラム1301は、LBAを物理セグメントアドレスへ変換する。本処理は公知であるため、説明を省略する。
 ステップ3207において、フラッシュストレージ制御プログラム1306は、ステップ3206で取得した物理セグメントアドレスを用いて、物理セグメントに格納されたデータを読みだす。本処理は公知であるため、説明を省略する。ステップ3208において、入出力制御部制御プログラム1304は、ステップ3207で取得したデータを上位装置112に送信し、完了応答を通知する。本処理は公知であるため、説明を省略する。
 ステップ3203において、退避データである場合(ステップ3203:YES)、当該LBAに関連するデータは、退避FMPKG113内に格納されている。そのため、論物変換プログラム1301によってステップ3204が実行される。
 ステップ3204において、論物変換プログラム1301は、入出力制御部制御プログラム1304が受領したコマンドに含まれるLBAを基に、データ退避アドレステーブル306を参照し、当該LBAに対応する退避先FMPKG ID803を取得する。ステップ3205において、入出力制御部制御プログラム1304は、ステップ3204で取得したデータを上位装置112に送信し、完了応答を通知する。
 以上のように、本実施例によれば、ストレージコントローラ102の負荷を低減することができる。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

Claims (10)

  1.  複数の記憶ドライブを制御する計算機であって、
     メモリと、
     前記メモリに格納されているプログラムに従って動作するプロセッサと、を含み、
     前記プロセッサは、
     第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、
     前記選択した1以上の領域のデータを、第2の記憶ドライブに移動し、
     前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブからデータを読み出して、前記部分故障による消失データを復元し、
     復元した前記消失データを前記第1の記憶ドライブに書き込む、計算機。
  2.  請求項1に記載の計算機であって、
     前記プロセッサは、前記第1の記憶ドライブにおける空き予備領域から前記部分故障による全消失データ量を引いた値が所定の値より小さい場合に、前記所定サイズ以上の1以上の領域を選択する、計算機。
  3.  請求項2に記載の計算機であって、
     前記プロセッサは、
     前記第1の記憶ドライブから、前記第1の記憶ドライブにおける空き予備領域から前記部分故障による全消失データ量を引いた値が所定の値より小さい場合に、障害通知を受信し、
     前記障害通知に応答して、前記所定サイズ以上の1以上の領域を選択する、計算機。
  4.  請求項1に記載の計算機であって、
     前記第1の記憶ドライブから前記第2の記憶ドライブに移動されるデータの論理アドレスは、前記第1の記憶ドライブと前記第2の記憶ドライブおいて共通である、計算機。
  5.  請求項1に記載の計算機であって、
     前記第1の記憶ドライブから前記第2の記憶ドライブに移動されるデータが、前記部分故障により消失した第1消失データを含む場合、前記プロセッサは、前記他の記憶ドライブからデータを読み出して前記第1消失データを復元し、前記第2の記憶ドライブに書き込む、計算機。
  6.  請求項1に記載の計算機であって、
     前記複数の記憶ドライブは、それぞれ、複数の仮想記憶ドライブを含む、物理記憶ドライブであり、
     前記複数の仮想記憶ドライブそれぞれに、物理記憶ドライブの論理アドレス空間内の領域が割り当てられており、
     前記プロセッサは、
     前記第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブにおける1以上の仮想記憶ドライブを選択し、
     選択した前記1以上の仮想記憶ドライブのデータを前記第2の記憶ドライブに移動する、計算機。
  7.  請求項6に記載の計算機であって、
     前記1以上の仮想記憶ドライブは、前記第2の記憶ドライブに含まれるいずれの仮想記憶ドライブともRAIDグループを構成していない、計算機。
  8.  請求項1に記載の計算機であって、
     前記プロセッサは、
     ホストからの前記1以上の領域に対するI/O要求に応答して、前記第1の記憶ドライブにI/O要求を送信し、
     前記第1の記憶ドライブに対する前記I/O要求に対して、前記第1の記憶ドライブから前記第2の記憶ドライブの識別情報を受信すると、前記第2の記憶ドライブにI/O要求を送信する、計算機。
  9.  複数の記憶ドライブを制御する方法であって、
     第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、
     前記選択した1以上の領域のデータを、第2の記憶ドライブに移動し、
     前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブからデータを読み出して、前記部分故障による消失データを復元し、
     復元した前記消失データを前記第1の記憶ドライブに書き込む、ことを含む方法。
  10.  複数の記憶ドライブと、
     メモリと、
     前記メモリに格納されているプログラムに従って動作するプロセッサと、を含み、
     前記プロセッサは、
     前記複数の記憶ドライブに含まれる第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、
     前記選択した1以上の領域のデータを、前記複数の記憶ドライブに含まれる第2の記憶ドライブに移動し、
     前記複数の記憶ドライブに含まれ、前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブから、データを読み出し、前記部分故障による消失データを復元し、
     復元した前記消失データを前記第1の記憶ドライブに書き込む、計算機システム。
PCT/JP2017/004251 2017-02-06 2017-02-06 計算機 WO2018142622A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2017/004251 WO2018142622A1 (ja) 2017-02-06 2017-02-06 計算機
US16/327,787 US10915401B2 (en) 2017-02-06 2017-02-06 Data saving caused by a partial failure of the memory device
JP2018565232A JP6817340B2 (ja) 2017-02-06 2017-02-06 計算機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/004251 WO2018142622A1 (ja) 2017-02-06 2017-02-06 計算機

Publications (1)

Publication Number Publication Date
WO2018142622A1 true WO2018142622A1 (ja) 2018-08-09

Family

ID=63040575

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/004251 WO2018142622A1 (ja) 2017-02-06 2017-02-06 計算機

Country Status (3)

Country Link
US (1) US10915401B2 (ja)
JP (1) JP6817340B2 (ja)
WO (1) WO2018142622A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915401B2 (en) * 2017-02-06 2021-02-09 Hitachi, Ltd. Data saving caused by a partial failure of the memory device
US20210326320A1 (en) * 2018-10-15 2021-10-21 Ocient Inc. Data segment storing in a database system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014196000A1 (ja) * 2013-06-03 2014-12-11 株式会社日立製作所 ストレージ装置およびストレージ装置制御方法
WO2015114744A1 (ja) * 2014-01-29 2015-08-06 株式会社日立製作所 ストレージ装置
WO2016174729A1 (ja) * 2015-04-28 2016-11-03 株式会社日立製作所 ストレージ装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2369206B (en) * 2000-11-18 2004-11-03 Ibm Method for rebuilding meta-data in a data storage system and a data storage system
US7698591B2 (en) * 2005-08-26 2010-04-13 International Business Machines Corporation Method and apparatus for ensuring data integrity in redundant mass storage systems
US20070050544A1 (en) * 2005-09-01 2007-03-01 Dell Products L.P. System and method for storage rebuild management
JP2007233903A (ja) * 2006-03-03 2007-09-13 Hitachi Ltd 記憶制御装置及び記憶制御装置のデータ回復方法
JP2009098996A (ja) * 2007-10-18 2009-05-07 Hitachi Ltd ストレージシステム
US8171377B2 (en) * 2008-01-31 2012-05-01 International Business Machines Corporation System to improve memory reliability and associated methods
US9558059B2 (en) * 2009-07-30 2017-01-31 International Business Machines Corporation Detecting data requiring rebuilding in a dispersed storage network
WO2013038618A1 (ja) 2011-09-14 2013-03-21 パナソニック株式会社 情報記憶媒体ライブラリアレイ装置、情報記録方法及び情報記録プログラム
JP5586712B2 (ja) * 2013-01-16 2014-09-10 株式会社東芝 ディスクアレイ制御装置およびディスクアレイ装置
US9411523B2 (en) * 2013-07-03 2016-08-09 Globalfoundries Inc. Redundant array of independent disks (RAID) system backup management
US10558527B2 (en) * 2014-12-02 2020-02-11 Pure Storage, Inc. Rebuilding strategy in memory managed multi-site duplication
US10915401B2 (en) * 2017-02-06 2021-02-09 Hitachi, Ltd. Data saving caused by a partial failure of the memory device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014196000A1 (ja) * 2013-06-03 2014-12-11 株式会社日立製作所 ストレージ装置およびストレージ装置制御方法
WO2015114744A1 (ja) * 2014-01-29 2015-08-06 株式会社日立製作所 ストレージ装置
WO2016174729A1 (ja) * 2015-04-28 2016-11-03 株式会社日立製作所 ストレージ装置

Also Published As

Publication number Publication date
JPWO2018142622A1 (ja) 2019-11-14
JP6817340B2 (ja) 2021-01-20
US10915401B2 (en) 2021-02-09
US20190220358A1 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
US10073640B1 (en) Large scale implementation of a plurality of open channel solid state drives
JP5437373B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
US20180173632A1 (en) Storage device and method for controlling storage device
JP5792313B2 (ja) ストレージシステム
US8832371B2 (en) Storage system with multiple flash memory packages and data control method therefor
US7831764B2 (en) Storage system having plural flash memory drives and method for controlling data storage
US9684591B2 (en) Storage system and storage apparatus
US10542089B2 (en) Large scale implementation of a plurality of open channel solid state drives
JP6062060B2 (ja) ストレージ装置、ストレージシステム、及びストレージ装置制御方法
JP6007332B2 (ja) ストレージシステム及びデータライト方法
JP5816303B2 (ja) フラッシュメモリを含むストレージシステム、及び記憶制御方法
US11928053B2 (en) System garbage collection method and method for garbage collection in solid state disk
JP6677740B2 (ja) ストレージシステム
KR20150105323A (ko) 데이터 스토리지 방법 및 시스템
JPWO2014103489A1 (ja) 特性の異なる複数種類のキャッシュメモリを有する情報処理装置
WO2016056104A1 (ja) ストレージ装置、及び、記憶制御方法
JP6817340B2 (ja) 計算機
JP5768118B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
WO2018002999A1 (ja) 記憶デバイス及びストレージ装置
JP7140807B2 (ja) 仮想ストレージシステム
US11068180B2 (en) System including non-volatile memory drive
JP6605762B2 (ja) 記憶ドライブの故障により消失したデータを復元する装置
JP6138318B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
JP5945040B2 (ja) 複数のフラッシュパッケージを有するストレージシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17895363

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018565232

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17895363

Country of ref document: EP

Kind code of ref document: A1