WO2019054434A1 - 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体 - Google Patents

故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体 Download PDF

Info

Publication number
WO2019054434A1
WO2019054434A1 PCT/JP2018/033926 JP2018033926W WO2019054434A1 WO 2019054434 A1 WO2019054434 A1 WO 2019054434A1 JP 2018033926 W JP2018033926 W JP 2018033926W WO 2019054434 A1 WO2019054434 A1 WO 2019054434A1
Authority
WO
WIPO (PCT)
Prior art keywords
timing
storage device
operation characteristic
failure sign
sign detection
Prior art date
Application number
PCT/JP2018/033926
Other languages
English (en)
French (fr)
Inventor
孝 飯田
Original Assignee
Necプラットフォームズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necプラットフォームズ株式会社 filed Critical Necプラットフォームズ株式会社
Priority to US16/644,546 priority Critical patent/US20200264946A1/en
Publication of WO2019054434A1 publication Critical patent/WO2019054434A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/18Error detection or correction; Testing, e.g. of drop-outs

Definitions

  • the present invention relates to a technology for detecting a sign of failure before a storage device fails.
  • Patent Document 1 discloses a disk drive including a disk medium and a magnetic head for writing information to or reading information from the disk medium, and performing failure prediction for the disk drive.
  • a magnetic disk drive having a failure prediction device.
  • the failure prediction apparatus performs a seek test for failure sign diagnosis and stores the result of the seek test and the operation time at the time of test execution in the test result storage unit.
  • the failure prediction apparatus sets a failure sign seek time for determining a failure sign, and stores the time in the failure sign reference time storage unit.
  • the failure prediction device predicts the disk medium replacement time based on the test result, the operation time, and the failure sign seek time.
  • a retry rate, an error rate, or a laser diode current value as an index value indicating a level of a problem caused due to a disc based on a result of executing a recording process or a reading process on the disc.
  • a disk device for obtaining This device uses a retry rate, an error rate, or a laser diode current value, and a threshold value of a retry rate, an error rate threshold, or a laser diode current value which is preset and stored in the flash memory. Predict equipment failure.
  • Patent Document 3 discloses a failure occurrence prediction system which predicts failure occurrence in the magnetic disk drive in advance based on the response from the magnetic disk drive to the read / write request. This system obtains the response time required for the response from the difference between the time when the read / write request is issued and the time when the data is received, based on the system clock. Then, the system determines whether the response time exceeds the set no retry normal response time, and when it is determined that the response time is exceeded, records information related to the magnetic disk apparatus in the database apparatus. Determine the progress of damage to the magnetic disk drive by statistical analysis.
  • JP 2008-84392 A Japanese Patent Application Publication No. 2007-294000 JP, 2004-118397, A
  • the storage device In the case of detecting a sign of failure in the storage device, the storage device is generally based on a predetermined reference (such as a threshold) on an operation characteristic including an error rate at the time of access or latency (response time) or the like.
  • a predetermined reference such as a threshold
  • an operation characteristic including an error rate at the time of access or latency (response time) or the like.
  • the degree of deterioration of the differ depending on the standard, specifications, performance, etc., and there are also variations (individual differences) among individuals. Therefore, when the degree of deterioration of the storage apparatus is determined based on a predetermined (determined) standard regarding the operation characteristics, it is difficult to detect a sign of failure with high accuracy.
  • the techniques described in Patent Documents 1 to 3 can not be said to be sufficient to solve such a problem.
  • the main object of the present invention is to provide a failure sign detection device etc. which solves this problem.
  • An apparatus for detecting a failure sign comprises: issuing means for issuing a test access request for a storage apparatus at a predetermined first timing and at a second timing after the first timing; Collection means for collecting, for each of the inspection access requests, information representing an operation characteristic when the storage apparatus operates in response to the inspection access request; and a first representing the operation characteristic at the first timing Storage means for storing the operation characteristic information and the second operation characteristic information representing the operation characteristic at the second timing; and a difference between the first operation characteristic information and the second operation characteristic information And generation means for generating deterioration information representing the deterioration state of the storage device by obtaining.
  • the failure sign detection method is characterized in that the information processing device performs the predetermined first timing and the second timing after the first timing. Issuing an access request for inspection to the storage device, collecting information indicating operation characteristics when the storage device is operated according to the access request for inspection, collecting for each access request for inspection, the first timing Storing in the storage means a first operating characteristic information representing the operating characteristic and a second operating characteristic information representing the operating characteristic at the second timing; By obtaining a difference between the two operation characteristic information, deterioration information representing the deterioration state of the storage device is generated.
  • the failure sign detection program is a storage device at a predetermined first timing and at a second timing after the first timing. Issue processing for issuing a test access request for the above, collection processing for collecting, for each of the test access requests, information representing operation characteristics when the storage apparatus is operated in response to the test access request; A storage process for storing, in storage means, first operation characteristic information representing the operation characteristic at one timing and second operation characteristic information representing the operation characteristic at the second timing; By determining the difference between the operation characteristic information and the second operation characteristic information, it is possible to represent the deterioration state of the storage device. Is a program for executing a generation process of generating information, to the computer.
  • the present invention can also be realized by a computer readable non-volatile storage medium storing such a failure sign detection program (computer program).
  • the present invention makes it possible to detect a failure sign with high accuracy before a storage device fails.
  • FIG. 6 is a flowchart showing an operation of generating operation characteristic information of the storage device 20 when use of the storage device 20 is started, according to the first embodiment of the present invention.
  • FIG. It is a flowchart which shows the operation
  • FIG. 1 is a block diagram conceptually showing the configuration of a failure sign detection system 1 according to a first embodiment of the present invention.
  • the failure sign detection system 1 roughly includes a storage control device (storage controller) 100, a storage device 20, and a host device (host device) 30.
  • storage controller storage controller
  • host device host device
  • the host device 30 is an information processing device such as a server device provided with a CPU (Central Processing Unit) and a memory (not shown), for example, a configuration described later with reference to FIG. Access the data
  • the storage control device 100 is a device that controls the storage device 20, and processes a request for the storage device 20 received from the host device 30.
  • the storage control device 100 also controls failure processing performed for a failure that has occurred in the storage device 20.
  • the storage device 20 has four magnetic disks 21 to 24 which are storage devices.
  • the number of magnetic disks included in the storage device 20 is not limited to four.
  • the storage device provided in the storage device 20 is not limited to the magnetic disk.
  • the storage device 20 may include, for example, a storage device such as a solid state drive (SSD).
  • the storage apparatus 20 includes, for example, magnetic disks 21 to 23 as active disks for normal operation, and a magnetic disk 24 as a standby disk usable as a standby disk that can be used by switching with a failed magnetic disk. May be provided. Then, the storage apparatus 20 may configure a RAID such as a RAID (Redundant Arrays of Inexpensive Disks) 5 with the magnetic disks 21 to 23, for example, in order to improve the availability.
  • RAID Redundant Arrays of Inexpensive Disks
  • the storage control device 100 has a failure sign detection device 10.
  • the failure sign detection apparatus 10 has a function of generating deterioration information representing the deterioration state based on the operation characteristics of the magnetic disks 21 to 24 in order to detect a failure sign relating to the magnetic disks 21 to 24 included in the storage device 20. Have.
  • the failure sign detection apparatus 10 includes an issuing unit 11, a collecting unit 12, a storage unit 13, a generating unit 14, a monitoring unit 15, a statistical calculation unit 16, and a configuration changing unit 17.
  • an operation performed by the failure sign detection apparatus 10 on the magnetic disk 21 is described in the present application, an operation performed by the failure sign detection apparatus 10 on the magnetic disks 22 to 24 is also performed on the magnetic disk 21. Is the same as
  • the issuing unit 11 performs an inspection to access the magnetic disk 21 when the use of the magnetic disk 21 is started (first timing) and at a second timing after the use of the magnetic disk 21 is started. Issue an access request for However, the second timing is a timing indicated by the monitoring unit 15 described later.
  • the inspection access request is not an access request issued from the upper apparatus 30, but is a dummy access request issued to inspect the deterioration state of the magnetic disk 21.
  • the failure sign detection apparatus 10 executes at least one of the following accesses to the magnetic disk 21 according to the inspection access request, for example.
  • the following access is an example, and the access performed by the failure sign detection apparatus 10 is not limited to the following access.
  • the failure sign detection device 10 executes an access request for inspection in the state where the cache is invalidated in order to obtain the operating characteristics of the magnetic disk 21 correctly.
  • (1) Access to seek the outermost and innermost tracks of the magnetic disk 21 (2) Multiple accesses with different data transfer lengths, (3) Access with switching of magnetic head, (4) Sequential (read and write) access, (5) Random (read and write) access.
  • sequential access is an operation of accessing successive storage areas in the magnetic disk 21 in the order of addresses.
  • the random access is an operation of accessing a plurality of storage areas in the magnetic disk 21 with different addresses without depending on the address order.
  • the issuing unit 11 may issue an access request of the same type a plurality of times so that the statistical calculation unit 16 described later can perform statistical calculation on the operation characteristics of the magnetic disk 21. .
  • the monitoring unit 15 monitors the load status related to the access from the host device 30 to the storage device 20.
  • the monitoring unit 15 determines whether or not a second timing for the load condition satisfying a predetermined condition has arrived. For example, the monitoring unit 15 may use, as the predetermined condition, that no access to the storage device 20 from the higher-level device 30 has occurred, or that the load related to the access is equal to or less than a threshold.
  • the monitoring unit 15 notifies the issuing unit 11 of the determination result.
  • the monitoring unit 15 may notify the issuing unit 11 of the determination result each time it determines that it is the second timing.
  • the issuing unit 11 When notified by the monitoring unit 15 that the second timing has arrived, the issuing unit 11 issues an inspection access request as described above. At this time, the issuing unit 11 secures a storage area (unused storage area) that is not used by the higher-level device 30 in the magnetic disk 21 as a storage area accessed by the inspection access request. This is to prevent the data stored in the magnetic disk 21 used by the upper apparatus 30 from being destroyed by the write access by the inspection access request.
  • the collection unit 12 collects information indicating operation characteristics when the storage device 20 operates in response to the inspection access request issued by the issuing unit 11 for each inspection access request.
  • the collection unit 12 collects, for example, at least one of a seek time, a rotation waiting time, and a data transfer time as information indicating the operation characteristic.
  • the seek time is the time required for the magnetic head of the magnetic disk 21 to move to the position of the track where the data to be accessed is stored.
  • the rotational latency is the time it takes for the data to be accessed to come under the magnetic head.
  • the data transfer time is the time required to read or write data to be accessed.
  • movement characteristic which the collection part 12 collects is not limited to each time mentioned above.
  • the collection unit 12 stores the collected information indicating the operation characteristic in association with the inspection access request, for example, in the storage unit 13.
  • the statistical calculation unit 16 performs statistical calculation on the information representing the operation characteristic collected by the collection unit 12 with respect to the inspection access request of the same type in plural times issued by the issuing unit 11.
  • statistical calculation is calculation which calculates
  • the statistical calculation unit 16 When the use of the magnetic disk 21 is started (first timing), the statistical calculation unit 16 performs the first operation on information representing operation characteristics including statistical information generated by performing the above-described statistical calculation.
  • the characteristic information is stored in the storage unit 13.
  • the statistical calculation unit 16 stores information representing the operation characteristic including statistical information, which is generated by similarly performing statistical calculation at the second timing described above, in the storage unit 13 as second operation characteristic information.
  • the storage unit 13 is a storage device such as an electronic memory or a magnetic disk.
  • the generation unit 14 obtains the difference between the first operation characteristic information and the second operation characteristic information stored in the storage unit 13 by the statistical calculation unit 16 to obtain the degraded state of the magnetic disk 21 (the magnetic disk 21
  • the deterioration information indicating the degree to which the magnetic disk 21 has deteriorated is generated from when the use is started until the second timing described above is reached.
  • the generation unit 14 also determines whether or not the value representing the degradation state of the magnetic disk 21 is equal to or greater than the threshold, and, when the value representing the degradation state is equal to or more than the threshold, replacing the magnetic disk 21 in a preventive manner.
  • Information indicating recommendation may be included in the generated degradation information.
  • the generation unit 14 transmits, for example, the generated deterioration information to the upper apparatus 30 used by the system administrator.
  • the configuration changing unit 17 has a function of changing the configuration of the storage device 20 when the storage device 20 includes, for example, a plurality of active (primary) disks configuring a RAID and a standby (secondary) disk.
  • the storage apparatus 20 configures RAID 5 with the magnetic disks 21 to 23 which are active disks and includes the magnetic disk 24 as a standby disk.
  • the degradation information generated by the generation unit 14 indicates that the preventive replacement of the magnetic disk 21 is recommended.
  • the configuration changing unit 17 first copies the data stored in the magnetic disk 21 to the magnetic disk 24.
  • the configuration changing unit 17 changes the configuration of RAID 5 so as to incorporate the magnetic disk 24 instead of the magnetic disk 21.
  • the configuration change unit 17 notifies, for example, the higher-level device 30 that the configuration of RAID 5 in the storage device 20 has been changed.
  • FIG. 2 is a flowchart showing an operation of the failure sign detection apparatus 10 according to this embodiment generating operation characteristic information of the storage device 20 when the use of the storage device 20 is started (first timing). .
  • the issuing unit 11 issues an inspection access request to the storage device 20 (step S101).
  • the collection unit 12 collects information indicating operation characteristics when the storage device 20 operates in response to the inspection access request (step S102).
  • the statistical calculation unit 16 performs statistical calculation on the information representing the operation characteristic collected by the collection unit 12 to generate first operation characteristic information including statistical information (step S103).
  • the statistical calculation unit 16 stores the generated first operation characteristic information in the storage unit 13 (step S104), and the whole process ends.
  • FIG. 3 is a flowchart showing an operation of the failure sign detection apparatus 10 according to the present embodiment generating degradation information related to the storage device 20.
  • the monitoring unit 15 monitors the load status regarding the access to the storage device 20 from the host device 30 (step S201).
  • the monitoring unit 15 determines whether the load status satisfies a predetermined condition (step S202). When the said load condition does not satisfy
  • the issuing unit 11 issues an inspection access request to the storage device 20 (step S205).
  • the collection unit 12 collects information indicating operation characteristics when the storage device 20 operates in response to the inspection access request (step S206).
  • the statistical calculation unit 16 generates second operation characteristic information including statistical information by performing statistical calculation on information representing the operation characteristic (step S207).
  • the statistical calculation unit 16 stores the generated second operation characteristic information in the storage unit 13 (step S208).
  • the generation unit 14 generates the degradation information by obtaining the difference between the first operation characteristic information and the second operation characteristic information stored in the storage unit 13 (step S209).
  • the generation unit 14 transmits the generated deterioration information to the higher-level device 30 (step S210), and the whole process ends.
  • the failure sign detection apparatus 10 can detect a failure sign with high accuracy before the storage device fails.
  • the reason is that the failure sign detection device 10 issues an access request for inspection to the storage device 20 at a predetermined first timing and then at a second timing, whereby the storage device 20 at those timings is generated. This is because the operation characteristic information is collected, and the degradation information on the storage device 20 is generated based on the operation characteristic information.
  • the degree of deterioration of the storage device is generally determined based on an error rate at the time of access or a predetermined reference (such as a threshold) on operation characteristics including latency and the like. Deciding.
  • a predetermined reference such as a threshold
  • the operating characteristics of the storage apparatus differ depending on the standard, specifications, performance, etc., and there are also variations (individual differences) among individuals. Therefore, when the degree of deterioration of the storage device is determined based on a predetermined standard regarding the operation characteristics, it is difficult to detect a sign of failure with high accuracy.
  • the failure sign detection apparatus 10 includes an issuing unit 11, a collection unit 12, a storage unit 13, and a generation unit 14.
  • the issuing unit 11 issues an inspection access request to the storage device 20 at a predetermined first timing and at a second timing after the first timing.
  • the collection unit 12 collects, for each inspection access request, information indicating an operation characteristic when the storage device 20 operates in response to the inspection access request.
  • the storage unit 13 stores first operation characteristic information indicating the operation characteristic at the first timing and second operation characteristic information indicating the operation characteristic at the second timing.
  • the generation unit 14 generates deterioration information representing the deterioration state of the storage device 20 by obtaining the difference between the first operation characteristic information and the second operation characteristic information.
  • the information used when the failure sign detection apparatus 10 generates the degradation information is the difference (relative value) of the information indicating the operation characteristic collected at the predetermined first timing and the second timing thereafter.
  • the information representing the operation characteristic at a certain timing is not an absolute value.
  • the failure sign detection device 10 takes into consideration the differences in standards, specifications, performance, or characteristics, etc., which differ from storage device to storage, unlike when absolute values are used ( Since offset information can be generated, it is possible to detect a failure sign with high accuracy before the storage device 20 fails.
  • the first timing described above is, for example, a predetermined (predetermined) timing such as when the use of the storage device 20 is started. That is, since the failure sign detection apparatus 10 has the first timing fixed (the condition (environment) at the time of generating the deterioration information is made uniform), the failure sign is detected before the storage apparatus 20 fails. Can be detected with high accuracy.
  • the first timing is not limited when the use of the storage device 20 is started.
  • the first timing may be, for example, timing used for a predetermined time after the use of the storage device 20 is started.
  • the monitoring unit 15 monitors the load status regarding access to the storage apparatus 20 from the host device 30, and the load status satisfies a predetermined condition (for example, the load related to the access is equal to or less than a threshold). It is determined whether the second timing has arrived. That is, the failure sign detection apparatus 10 according to the present embodiment, even at the second timing, makes the condition (environment) at the time of generating the deterioration information uniform, thereby preventing the failure of the storage device 20 before the failure. The sign can be detected with high accuracy.
  • a predetermined condition for example, the load related to the access is equal to or less than a threshold.
  • the statistical calculation unit 16 performs statistical calculation (calculation of an average value or the like) with respect to information representing the operation characteristic related to the inspection access request issued by the issuing unit 11 for the plurality of times of the same type. , Generating the first and second operating characteristic information described above, including statistical information.
  • the failure sign detection apparatus 10 can detect a failure sign with higher accuracy before the storage device 20 fails.
  • the issuing unit 11 secures in advance an unused storage area in the storage device 20 as a storage area accessed by the issued inspection access request.
  • the failure sign detection apparatus 10 prevents the data stored in the magnetic disk 21 used by the upper apparatus 30 from being destroyed by the write access by the inspection access request. Detection of a sign of failure can be performed safely.
  • the failure sign detection apparatus 10 can change the configuration of the storage apparatus 20 including the magnetic disks 21 to 23 which are active disks constituting RAID and the magnetic disk 24 which is a standby disk.
  • the configuration change unit 17 is provided. For example, when the value indicating the degradation state of the magnetic disk 21 is equal to or more than the threshold, the configuration changing unit 17 copies the data stored in the magnetic disk 21 to the magnetic disk 24 and then replaces the magnetic disk 21 with a magnetic disk. Change the RAID configuration to incorporate 24. Therefore, the failure sign detection apparatus 10 according to the present embodiment can increase the availability of the storage apparatus 20 based on the result of detecting the failure sign.
  • the failure sign detection device 10 may have a simple configuration that does not include at least one of the monitoring unit 15, the statistical calculation unit 16, and the configuration changing unit 17.
  • FIG. 4 is a block diagram conceptually showing the structure of the failure sign detection apparatus 40 according to the second embodiment of the present invention.
  • the failure sign detection device 40 includes an issuing unit 41, a collection unit 42, a storage unit 43, and a generation unit 44.
  • the issuing unit 41 issues an inspection access request to the storage device 50 at a predetermined first timing and at a second timing after the first timing.
  • the collection unit 42 collects, for each of the inspection access requests, information indicating an operation characteristic when the storage device 50 operates in response to the inspection access request.
  • the storage unit 43 stores first operation characteristic information indicating the operation characteristic at the first timing and second operation characteristic information indicating the operation characteristic at the second timing.
  • the generation unit 44 generates deterioration information representing a deterioration state of the storage device 50 by obtaining the difference between the first operation characteristic information and the second operation characteristic information.
  • the failure sign detection apparatus 40 can detect a failure sign with high accuracy before the storage device fails. The reason is that the failure sign detection device 40 issues an access request for inspection to the storage device 50 at a predetermined first timing and then at a second timing, whereby the storage device 50 at those timings is This is because the operation characteristic information is collected, and the degradation information on the storage device 50 is generated based on the operation characteristic information.
  • Each part in the failure sign detection apparatus shown in FIG. 1 and FIG. 4 in each embodiment described above can be realized by a dedicated HW (HardWare) (electronic circuit). Further, in FIG. 1 and FIG. 4, at least the following configuration can be regarded as a function (processing) unit (software module) of the software program. ⁇ Issuing unit 11 and 41, The collection unit 12 and 42, Storage control function in the storage unit 13 and 43 The generation unit 14 and 44, ⁇ Monitoring unit 15, Statistical calculation unit 16, The configuration change unit 17.
  • HW HardWare
  • FIG. 5 exemplarily illustrates the configuration of an information processing apparatus 900 (computer) capable of executing the failure sign detection apparatus according to each embodiment of the present invention. That is, FIG. 5 shows a configuration of a computer (information processing apparatus) capable of realizing the failure sign detection apparatus shown in FIG. 1 and FIG. 4, and a hardware environment capable of realizing each function in the above-described embodiment. Represents
  • the information processing apparatus 900 illustrated in FIG. 5 includes the following as constituent elements.
  • CPU Central_Processing_Unit
  • ROM Read_Only_Memory
  • RAM Random_Access_Memory
  • Hard disk storage device
  • a reader / writer 908 capable of reading and writing data stored in a recording medium 907 such as a CD-ROM (Compact_Disc_Read_Only_Memory), Input / output interface 909.
  • the information processing apparatus 900 including the above-described components is a general computer in which these configurations are connected via the bus 906.
  • the information processing apparatus 900 may include a plurality of CPUs 901 or may include a CPU 901 configured by a multi-core.
  • the present invention described by taking the above-described embodiment as an example supplies a computer program capable of realizing the following functions to the information processing apparatus 900 shown in FIG.
  • the function is the function of the above-described configuration or the flowchart (FIGS. 2 and 3) in the block configuration diagram (FIGS. 1 and 4) referred to in the description of the embodiment.
  • the present invention is achieved by reading, interpreting, and executing the computer program on the CPU 901 of the hardware.
  • the computer program supplied into the apparatus may be stored in a readable / writable volatile memory (RAM 903) or a non-volatile storage device such as the ROM 902 or the hard disk 904.
  • the method of supplying the computer program into the hardware can adopt a general procedure at present.
  • the procedure for example, there is a method of installing in the apparatus via various recording media 907 such as a CD-ROM, a method of downloading from outside via a communication line such as the Internet, and the like.
  • the present invention can be understood as being configured by a code that configures the computer program or the recording medium 907 in which the code is stored.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

故障予兆検出装置40は、所定の第一のタイミング、及び、その第一のタイミングより後の第二のタイミングに、ストレージ装置50に対する検査用アクセスリクエストを発行する発行部41と、検査用アクセスリクエストに応じてストレージ装置50が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する収集部42と、第一のタイミングにおける動作特性を表す第一の動作特性情報と、第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する記憶部43と、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、ストレージ装置50の劣化状態を表す劣化情報を生成する生成部44と、を備えることによって、ストレージ装置が故障する前に、故障の予兆を高い精度で検出する。

Description

故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体
 本願発明は、ストレージ装置が故障する前に、故障の予兆を検知する技術に関する。
 ストレージ装置は、その使用が開始された後、時間の経過とともに劣化が進み、劣化が進行することに応じて、障害が発生する可能性が高くなる。したがって、このようなストレージ装置を含むコンピュータシステムの可用性を高めるために、ストレージ装置において障害が発生する前に、ストレージ装置の劣化が進行する度合いに基づいて故障の予兆を検知することにより、障害の発生を回避する技術への期待が高まってきている。
 このような技術に関連する技術として、特許文献1には、ディスク媒体と、そのディスク媒体に対し情報の書き込みあるいは読み出しを行う磁気ヘッドと、を備えるディスクドライブと、そのディスクドライブの障害予測を行う障害予測装置と、を有する磁気ディスク装置が開示されている。当該障害予測装置は、障害予兆診断のためのシークテストを行い、シークテストの結果とテスト実行時の稼働時間とをテスト結果格納部に格納する。当該障害予測装置は、障害予兆を判断するための障害予兆シーク時間を設定し、障害予兆基準時間格納部に格納する。当該障害予測装置は、テスト結果と稼働時間と障害予兆シーク時間とに基づいて、ディスク媒体の交換時期を予測する。
 また、特許文献2には、ディスクに対する記録処理または読み出し処理を実行した結果に基づいて、ディスクに起因して発生する問題のレベルを示す指標値としてのリトライ率、エラーレート、またはレーザダイオード電流値を取得するディスク装置が開示されている。この装置は、リトライ率、エラーレート、またはレーザダイオード電流値と、予め設定されフラッシュメモリに記憶されているリトライ率の閾値、エラーレートの閾値、またはレーザダイオード電流値の閾値とを用いて、自装置の故障を予測する。
 また、特許文献3には、リード/ライト要求に対する磁気ディスク装置からの応答に基づき、当該磁気ディスク装置における障害発生を事前に予測する障害発生予測システムが開示されている。このシステムは、システムクロックに基づき、リード/ ライト要求を出した時刻と、データを受け取った時刻との差分から、応答に要した応答時間を得る。そして、このシステムは、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定する。
特開2008-84392号公報 特開2007-294000号公報 特開2004-118397号公報
 ストレージ装置において故障の予兆を検知する場合、一般的に、アクセスが行なわれた際のエラーレート、あるいはレイテンシ(応答時間)等を含む動作特性に関する所定の基準(閾値等)に基づいて、ストレージ装置の劣化度合いを判断している。しかしながら、ストレージ装置の動作特性には、その規格、仕様、性能等によって異なるとともに、個体間におけるばらつき(個体差)も存在する。したがって、動作特性に関する所定の(決められた)基準に基づいて、ストレージ装置の劣化度合いを判断する場合、故障の予兆を高い精度で検知することは困難である。特許文献1乃至3が示す技術は、このような課題を解決するのに、十分であるとは言えない。本願発明の主たる目的は、この問題を解決する故障予兆検出装置等を提供することである。
 本願発明の一態様に係る故障予兆検出装置は、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行手段と、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集手段と、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶する記憶手段と、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成手段と、を備える。
 上記目的を達成する他の見地において、本願発明の一態様に係る故障予兆検出方法は、情報処理装置によって、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行し、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集し、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶し、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する。
 また、上記目的を達成する更なる見地において、本願発明の一態様に係る故障予兆検出プログラムは、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行処理と、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集処理と、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶する記憶処理と、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成処理と、をコンピュータに実行させるためのプログラムである。
 更に、本願発明は、係る故障予兆検出プログラム(コンピュータプログラム)が格納された、コンピュータ読み取り可能な、不揮発性の記録媒体によっても実現可能である。
 本願発明は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することを可能とする。
本願発明の第1の実施形態に係る故障予兆検出システム1の構成を概念的に示すブロック図である。 本願発明の第1の実施形態に係る故障予兆検出装置10が、ストレージ装置20の使用が開始されたときに、ストレージ装置20の動作特性情報を生成する動作を示すフローチャートである。 本願発明の第1の実施形態に係る故障予兆検出装置10が劣化情報を生成する動作を示すフローチャートである。 本願発明の第2の実施形態に係る故障予兆検出装置40の構成を概念的に示すブロック図である。 本願発明の各実施形態に係る故障予兆検出装置を実行可能な情報処理装置900の構成を示すブロック図である。
 以下、本願発明の実施の形態について図面を参照して詳細に説明する。
 <第1の実施形態>
 図1は、本願発明の第1の実施の形態に係る故障予兆検出システム1の構成を概念的に示すブロック図である。故障予兆検出システム1は、大別して、ストレージ制御装置(ストレージコントローラ)100、ストレージ装置20、及び、上位装置(ホスト装置)30を有している。
 上位装置30は、CPU(Central Processing Unit)及びメモリ等(不図示)を備えた、例えば図5を参照して後述する構成を有するサーバ装置等の情報処理装置であり、ストレージ装置20に格納されているデータにアクセスする。ストレージ制御装置100は、ストレージ装置20を制御する装置であり、上位装置30から受信した、ストレージ装置20に対するリクエストを処理する。ストレージ制御装置100は、また、ストレージ装置20において発生した障害に対して行なう障害処理を制御する。
 ストレージ装置20は、記憶デバイスである4つの磁気ディスク21乃至24を有する。尚、ストレージ装置20が有する磁気ディスクの個数は、4つに限定されない。また、ストレージ装置20が備える記憶デバイスは磁気ディスクに限定されない。ストレージ装置20は、例えば、SSD(Solid State Drive)等の記憶デバイスを備えてもよい。
 ストレージ装置20は、例えば、磁気ディスク21乃至23を、通常動作を行う現用系ディスクとして備え、磁気ディスク24を、障害が発生した磁気ディスクと切り換えて使用可能な待機系ディスクとして備えた、冗長構成を備えてもよい。そして、ストレージ装置20は、可用性を向上させるために、例えば、磁気ディスク21乃至23によりRAID(Redundant Arrays of Inexpensive Disks)5等のRAIDを構成してもよい。尚、RAIDは周知の技術であるので、本願では、その詳細な説明を省略する。
 ストレージ制御装置100は、故障予兆検出装置10を有している。故障予兆検出装置10は、ストレージ装置20が備える磁気ディスク21乃至24に関する故障の予兆を検出するために、磁気ディスク21乃至24の動作特性に基づいて、その劣化状態を表す劣化情報を生成する機能を有する。
 故障予兆検出装置10は、発行部11、収集部12、記憶部13、生成部14、監視部15、統計計算部16、及び、構成変更部17を備える。以降、本願では、故障予兆検出装置10が磁気ディスク21に対して行なう動作を説明するが、故障予兆検出装置10が磁気ディスク22乃至24に対して行なう動作も、磁気ディスク21に対して行なう動作と同様である。
 発行部11は、磁気ディスク21の使用が開始されたとき(第一のタイミング)と、磁気ディスク21の使用が開始されたのちの第二のタイミングとにおいて、磁気ディスク21へのアクセスを行なう検査用アクセスリクエストを発行する。但し、第二のタイミングは、後述する監視部15によって示されるタイミングである。当該検査用アクセスリクエストは、上位装置30から発行されたアクセスリクエストではなく、磁気ディスク21の劣化状態を検査するために発行された、ダミーのアクセスリクエストである。
 この検査用アクセスリクエストによって、故障予兆検出装置10は、磁気ディスク21に対して、例えば、下記のアクセスの少なくともいずれかを実行する。尚、下記のアクセスは一例であり、故障予兆検出装置10が実行するアクセスは、下記のアクセスに限定されない。故障予兆検出装置10は、磁気ディスク21がキャッシュを備える場合、磁気ディスク21の動作特性を正確に得るために、当該キャッシュを無効化した状態で、検査用アクセスリクエストを実行する。
(1)磁気ディスク21の最外周及び最内周のトラックをシークするアクセス、
(2)データ転送長が異なる複数のアクセス、
(3)磁気ヘッドの切り替えを伴うアクセス、
(4)シーケンシャル(リード及びライト)アクセス、
(5)ランダム(リード及びライト)アクセス。
但し、シーケンシャルアクセスは、磁気ディスク21における連続する記憶領域に対して、アドレス順にアクセスする動作である。またランダムアクセスは、磁気ディスク21におけるアドレスが異なる複数の記憶領域に対して、アドレス順に依存しないでアクセスする動作である。
 発行部11は、後述する統計計算部16が、磁気ディスク21に関する動作特性に対して統計計算を行なうことができるようにするために、種別が等しいアクセスリクエストを、それぞれ複数回発行してもよい。
 監視部15は、上位装置30からストレージ装置20に対するアクセスに関する負荷状況を監視する。監視部15は、その負荷状況が所定の条件を満たす第二のタイミングが到来したか否かを判定する。監視部15は、例えば、上位装置30からストレージ装置20に対するアクセスが発生していないこと、あるいは、当該アクセスに関する負荷が閾値以下であることを、当該所定の条件として使用してもよい。監視部15は、当該第二のタイミングが到来したと判定した場合、その判定結果を発行部11へ通知する。監視部15は、また、第二のタイミングであると判定する度に、判定結果を発行部11へ通知するようにしてもよい。
 発行部11は、監視部15から第二のタイミングが到来したことを通知された場合、上述した通り、検査用アクセスリクエストを発行する。発行部11は、この際、磁気ディスク21において、上位装置30によって使用されていない記憶領域(未使用の記憶領域)を、検査用アクセスリクエストによってアクセスされる記憶領域として確保する。これは、検査用アクセスリクエストによるライトアクセスによって、上位装置30が使用する、磁気ディスク21に記憶されているデータが破壊されないようにするためである。
 収集部12は、発行部11によって発行された検査用アクセスリクエストに応じてストレージ装置20が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する。収集部12は、動作特性を表す情報として、例えば、シーク時間と、回転待ち時間と、データ転送時間とのうちの少なくともいずれかを収集する。ただし、シーク時間は、磁気ディスク21の磁気ヘッドが、アクセス対象であるデータが格納されているトラックの位置まで移動するのに要する時間である。回転待ち時間は、アクセス対象であるデータが、磁気ヘッドの下に来るまでに要する時間である。データ転送時間は、アクセス対象であるデータの読み出しあるいは書き込みに要する時間である。尚、収集部12が収集する動作特性を表す情報は、上述した各時間に限定されない。
 収集部12は、収集した動作特性を表す情報を、検査用アクセスリクエストと関連付けて、例えば記憶部13へ格納する。
 統計計算部16は、発行部11が発行した複数回の種別が等しい検査用アクセスリクエストに関して、収集部12が収集した動作特性を表す情報に対して、統計計算を行なう。
但し、統計計算とは、例えば平均値あるいは標準偏差等の統計情報を求める計算である。
 統計計算部16は、磁気ディスク21の使用が開始されたとき(第一のタイミング)において、上述した統計計算を行なうことによって生成した、統計情報を含む動作特性を表す情報を、第一の動作特性情報として、記憶部13に格納する。統計計算部16は、上述した第二のタイミングにおいて、同様に統計計算を行なうことによって生成した、統計情報を含む動作特性を表す情報を、第二の動作特性情報として、記憶部13に格納する。但し、記憶部13は、電子メモリあるいは磁気ディスク等の記憶デバイスである。
 生成部14は、統計計算部16によって記憶部13に格納された、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、磁気ディスク21の劣化状態(磁気ディスク21の使用が開始されたときから、上述した第二のタイミングに至るまでに、磁気ディスク21が劣化した度合い)を表す劣化情報を生成する。生成部14は、また、磁気ディスク21の劣化状態を表す値が閾値以上であるか否かを判定し、その劣化状態を表す値が閾値以上である場合、磁気ディスク21を予防交換することを推奨することを示す情報を、生成する劣化情報に含めるようにしてもよい。生成部14は、生成した劣化情報を、例えば、システム管理者が使用する上位装置30へ送信する。
 構成変更部17は、ストレージ装置20が、例えば、RAIDを構成する複数の現用系(一次)ディスクと、待機系(二次)ディスクとを含む場合に、ストレージ装置20の構成を変更する機能を有する。例えば、ストレージ装置20が、現用系ディスクである磁気ディスク21乃至23によりRAID5を構成し、磁気ディスク24を待機系ディスクとして備える場合を考える。そして、生成部14により生成された劣化情報が、磁気ディスク21を予防交換することを推奨することを示していることとする。この場合、構成変更部17は、まず、磁気ディスク21に記憶されていたデータを、磁気ディスク24に複写する。構成変更部17は、この後、磁気ディスク21の代わりに、磁気ディスク24を組み込むように、RAID5の構成を変更する。構成変更部17は、ストレージ装置20におけるRAID5の構成を変更したことを、例えば、上位装置30へ通知する。
 次に、図2及び図3のフローチャートを参照して、本実施形態に係る故障予兆検出装置10の動作(処理)について詳細に説明する。
 図2は、本実施形態に係る故障予兆検出装置10が、ストレージ装置20の使用が開始されたとき(第一のタイミング)に、ストレージ装置20の動作特性情報を生成する動作を示すフローチャートである。
 発行部11は、ストレージ装置20に対する検査用アクセスリクエストを発行する(ステップS101)。収集部12は、検査用アクセスリクエストに応じてストレージ装置20が動作したときの動作特性を表す情報を収集する(ステップS102)。
 統計計算部16は、収集部12により収集された動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、第一の動作特性情報を生成する(ステップS103)。統計計算部16は、生成した第一の動作特性情報を、記憶部13に格納し(ステップS104)、全体の処理は終了する。
 図3は、本実施形態に係る故障予兆検出装置10が、ストレージ装置20に関する劣化情報を生成する動作を示すフローチャートである。
 監視部15は、上位装置30からストレージ装置20に対するアクセスに関する負荷状況を監視する(ステップS201)。監視部15は、負荷状況が所定の条件を満たすか否か判定する(ステップS202)。当該負荷状況が所定の条件を満たさない場合(ステップS203でNo)、処理は、ステップS201へ戻る。当該負荷状況が所定の条件を満たす場合(ステップS203でYes)、発行部11は、検査用アクセスリクエストによってアクセスされる記憶領域を、ストレージ装置20の中に確保する(ステップS204)。
 発行部11は、ストレージ装置20に対する検査用アクセスリクエストを発行する(ステップS205)。収集部12は、検査用アクセスリクエストに応じてストレージ装置20が動作したときの動作特性を表す情報を収集する(ステップS206)。
 統計計算部16は、動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、第二の動作特性情報を生成する(ステップS207)。統計計算部16は、生成した第二の動作特性情報を記憶部13に格納する(ステップS208)。
 生成部14は、記憶部13に格納されている第一の動作特性情報と第二の動作特性情報との差分を求めることによって、劣化情報を生成する(ステップS209)。生成部14は、生成した劣化情報を上位装置30へ送信し(ステップS210)、全体の処理は終了する。
 本実施形態に係る故障予兆検出装置10は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することができる。その理由は、故障予兆検出装置10は、所定の第一のタイミング、及び、その後の第二のタイミングに、ストレージ装置20に対する検査用アクセスリクエストを発行することによって、それらのタイミングにおけるストレージ装置20の動作特性情報を収集し、その動作特性情報に基づいて、ストレージ装置20に関する劣化情報を生成するからである。
 以下に、本実施形態に係る故障予兆検出装置10によって実現される効果について、詳細に説明する。
 ストレージ装置において故障の予兆を検知する場合、一般的に、アクセスが行なわれた際のエラーレート、あるいはレイテンシ等を含む動作特性に関する所定の基準(閾値等)に基づいて、ストレージ装置の劣化度合いを判断している。しかしながら、ストレージ装置の動作特性には、その規格、仕様、性能等によって異なるとともに、個体間におけるばらつき(個体差)も存在する。したがって、動作特性に関する所定の基準に基づいて、ストレージ装置の劣化度合いを判断する場合、故障の予兆を高い精度で検知することは困難である。
 このような問題に対して、本実施形態に係る故障予兆検出装置10は、発行部11と、収集部12と、記憶部13と、生成部14と、を備え、例えば図1乃至図3を参照して上述した通り動作する。即ち、発行部11は、所定の第一のタイミング、及び、当該第一のタイミングより後の第二のタイミングに、ストレージ装置20に対する検査用アクセスリクエストを発行する。収集部12は、当該検査用アクセスリクエストに応じてストレージ装置20が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する。記憶部13は、第一のタイミングにおける動作特性を表す第一の動作特性情報と、第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する。そして、生成部14は、当該第一の動作特性情報と当該第二の動作特性情報との差分を求めることによって、ストレージ装置20の劣化状態を表す劣化情報を生成する。
 即ち、故障予兆検出装置10が劣化情報を生成する際に使用する情報は、所定の第一のタイミングとその後の第二のタイミングとにおいて収集した動作特性を表す情報の差分(相対値)であり、あるタイミングにおける動作特性を表す情報が表す絶対値ではない。故障予兆検出装置10は、このような相対値を使用することによって、絶対値を使用する場合とは異なり、ストレージ装置ごとに異なる、規格、仕様、性能、あるいは、特性のばらつきなどを考慮した(相殺した)劣化情報を生成することができるので、ストレージ装置20が故障する前に、故障の予兆を高い精度で検出することができる。
 また、上述した第一のタイミングは、例えば、ストレージ装置20の使用が開始されたときなどの、所定の(予め決められた)タイミングである。即ち、故障予兆検出装置10は、第一のタイミングが固定されている(劣化情報を生成する際の条件(環境)を均一とする)ことによって、ストレージ装置20が故障する前に、故障の予兆を高い精度で検出することができる。尚、第一のタイミングは、ストレージ装置20の使用が開始されたときに限定されない。第一のタイミングは、例えば、ストレージ装置20の使用が開始された後に所定の時間に亘って使用されたタイミングなどであってもよい。
 また、本実施形態に係る監視部15は、上位装置30からストレージ装置20に対するアクセスに関する負荷状況を監視し、その負荷状況が所定の条件(当該アクセスに関する負荷が閾値以下であること等)を満たす第二のタイミングが到来したか否かを判定する。即ち、本実施形態に係る故障予兆検出装置10は、第二のタイミングにおいても、劣化情報を生成する際の条件(環境)を均一とすることによって、ストレージ装置20が故障する前に、故障の予兆を高い精度で検出することができる。
 また、本実施形態に係る統計計算部16は、発行部11によって発行された複数回の種別が等しい検査用アクセスリクエストに関する動作特性を表す情報に関して統計計算(平均値等の計算)を行なうことによって、統計情報を含む、上述した第一及び第二の動作特性情報を生成する。これにより、本実施形態に係る故障予兆検出装置10は、ストレージ装置20が故障する前に、故障の予兆を、より高い精度で検出することができる。
 また、本実施形態に係る発行部11は、ストレージ装置20における未使用の記憶領域を、発行する検査用アクセスリクエストによってアクセスされる記憶領域として、事前に確保する。これにより、本実施形態に係る故障予兆検出装置10は、検査用アクセスリクエストによるライトアクセスによって、上位装置30が使用する、磁気ディスク21に記憶されているデータが破壊されることを回避するので、故障の予兆の検出を、安全に行なうことができる。
 さらに、本実施形態に係る故障予兆検出装置10は、RAIDを構成する現用系ディスクである磁気ディスク21乃至23と、待機系ディスクである磁気ディスク24とを含むストレージ装置20の構成を変更可能な構成変更部17を備える。構成変更部17は、例えば磁気ディスク21に関する劣化状態を示す値が閾値以上である場合、磁気ディスク21に記憶されていたデータを磁気ディスク24に複写したのち、磁気ディスク21の代わりに、磁気ディスク24を組み込むように、RAIDの構成を変更する。したがって、本実施形態に係る故障予兆検出装置10は、故障の予兆を検出した結果に基づいて、ストレージ装置20の可用性を高めることができる。
 また、本実施形態に係る故障予兆検出装置10は、監視部15、統計計算部16、及び、構成変更部17のうちの少なくともいずれかを含まない、簡易な構成を備えてもよい。
 <第2の実施形態>
 図4は、本願発明の第2の実施形態に係る故障予兆検出装置40の構成を概念的に示すブロック図である。
 実施形態に係る故障予兆検出装置40は、発行部41、収集部42、記憶部43、及び、生成部44を備えている。
 発行部41は、所定の第一のタイミング、及び、当該第一のタイミングより後の第二のタイミングに、ストレージ装置50に対する検査用アクセスリクエストを発行する。
 収集部42は、当該検査用アクセスリクエストに応じてストレージ装置50が動作したときの動作特性を表す情報を、当該検査用アクセスリクエストごとに収集する。
 記憶部43は、当該第一のタイミングにおける動作特性を表す第一の動作特性情報と、当該第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する。
 生成部44は、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、ストレージ装置50の劣化状態を表す劣化情報を生成する。
 本実施形態に係る故障予兆検出装置40は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することができる。その理由は、故障予兆検出装置40は、所定の第一のタイミング、及び、その後の第二のタイミングに、ストレージ装置50に対する検査用アクセスリクエストを発行することによって、それらのタイミングにおけるストレージ装置50の動作特性情報を収集し、その動作特性情報に基づいて、ストレージ装置50に関する劣化情報を生成するからである。
 <ハードウェア構成例>
 上述した各実施形態において図1、及び、図4に示した故障予兆検出装置における各部は、専用のHW(HardWare)(電子回路)によって実現することができる。また、図1、及び、図4において、少なくとも、下記構成は、ソフトウェアプログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。
・発行部11、及び、41、
・収集部12、及び、42、
・記憶部13、及び、43における記憶制御機能、
・生成部14、及び、44、
・監視部15、
・統計計算部16、
・構成変更部17。
 但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図5を参照して説明する。
 図5は、本願発明の各実施形態に係る故障予兆検出装置を実行可能な情報処理装置900(コンピュータ)の構成を例示的に説明する図である。即ち、図5は、図1、及び、図4に示した故障予兆検出装置を実現可能なコンピュータ(情報処理装置)の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。
 図5に示した情報処理装置900は、構成要素として下記を備えている。
・CPU(Central_Processing_Unit)901、
・ROM(Read_Only_Memory)902、
・RAM(Random_Access_Memory)903、
・ハードディスク(記憶装置)904、
・外部装置との通信インタフェース905、
・バス906(通信線)、
・CD-ROM(Compact_Disc_Read_Only_Memory)等の記録媒体907に格納されたデータを読み書き可能なリーダライタ908、
・入出力インタフェース909。
 即ち、上記構成要素を備える情報処理装置900は、これらの構成がバス906を介して接続された一般的なコンピュータである。情報処理装置900は、CPU901を複数備える場合もあれば、マルチコアにより構成されたCPU901を備える場合もある。
 そして、上述した実施形態を例に説明した本願発明は、図5に示した情報処理装置900に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図(図1、及び、図4)における上述した構成、或いはフローチャート(図2及び図3)の機能である。本願発明は、その後、そのコンピュータプログラムを、当該ハードウェアのCPU901に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性のメモリ(RAM903)、または、ROM902やハードディスク904等の不揮発性の記憶デバイスに格納すれば良い。
 また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、現在では一般的な手順を採用することができる。その手順としては、例えば、CD-ROM等の各種記録媒体907を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等がある。そして、このような場合において、本願発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記録媒体907によって構成されると捉えることができる。
 以上、上述した実施形態を模範的な例として本願発明を説明した。しかしながら、本願発明は、上述した実施形態には限定されない。即ち、本願発明は、本願発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 この出願は、2017年9月14日に出願された日本出願特願2017-176812を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1  故障予兆検出システム
 10  故障予兆検出装置
 11  発行部
 12  収集部
 13  記憶部
 14  生成部
 15  監視部
 16  統計計算部
 17  構成変更部
 100  ストレージ制御装置
 20  ストレージ装置
 21乃至24  磁気ディスク
 30  上位装置
 40  故障予兆検出装置
 41  発行部
 42  収集部
 43  記憶部
 44  生成部
 50  ストレージ装置
 900  情報処理装置
 901  CPU
 902  ROM
 903  RAM
 904  ハードディスク(記憶装置)
 905  通信インタフェース
 906  バス
 907  記録媒体
 908  リーダライタ
 909  入出力インタフェース

Claims (10)

  1.  所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行手段と、
     前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集手段と、
     前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶する記憶手段と、 前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成手段と、
     を備える故障予兆検出装置。
  2.  上位装置から前記ストレージ装置に対するアクセスに関する負荷状況を監視し、前記負荷状況が所定の条件を満たす前記第二のタイミングが到来したか否かを判定する監視手段をさらに備える、
     請求項1に記載の故障予兆検出装置。
  3.  統計計算手段をさらに備え、
     前記発行手段は、種別が等しい前記検査用アクセスリクエストを複数回発行し、
     前記統計計算手段は、複数回の前記種別が等しい検査用アクセスリクエストに関する前記動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、前記第一及び第二の動作特性情報を生成する、
     請求項1または請求項2に記載の故障予兆検出装置。
  4.  前記発行手段は、磁気ディスクを有する前記ストレージ装置に対して、前記磁気ディスクの最外周と最内周のトラックをシークするアクセスと、データ転送長が異なる複数のアクセスと、磁気ヘッドの切り替えを伴うアクセスと、シーケンシャルアクセスと、ランダムアクセスと、のうちの少なくともいずれかを実行するための前記検査用アクセスリクエストを発行する、
     請求項1乃至請求項3のいずれか一項に記載の故障予兆検出装置。
  5.  前記収集手段は、シーク時間と、回転待ち時間と、データ転送時間とのうちの少なくともいずれかを含む前記動作特性を表す情報を収集する、
     請求項4に記載の故障予兆検出装置。
  6.  前記発行手段は、前記ストレージ装置の使用が開始されたときを前記第一のタイミングとして、前記ストレージ装置に対する検査用アクセスリクエストを発行する、
     請求項1乃至請求項5のいずれか一項に記載の故障予兆検出装置。
  7.  前記発行手段は、前記ストレージ装置における未使用の記憶領域を、発行する前記検査用アクセスリクエストによってアクセスされる記憶領域として確保する、
     請求項1乃至請求項6のいずれか一項に記載の故障予兆検出装置。
  8.  RAID(Redundant Arrays of Inexpensive Disks)を構成する複数の現用系ディスクと、待機系ディスクとを含む前記ストレージ装置の構成を変更する構成変更手段をさらに備え、
     前記生成手段は、前記複数の現用系ディスクと前記待機系ディスクとの劣化状態を表す値が閾値以上であるか否かを示す前記劣化情報を生成し、
     前記構成変更手段は、前記劣化情報が、前記複数の現用系ディスクのうちの特定の現用系ディスクに関する前記劣化状態が閾値以上であることを示す場合、前記特定の現用系ディスクに記憶されていたデータを前記待機系ディスクに複写したのち、前記特定の現用系ディスクの代わりに、前記待機系ディスクを組み込むように、前記RAIDの構成を変更する、
     請求項1乃至請求項7のいずれか一項に記載の故障予兆検出装置。
  9.  情報処理装置によって、
      所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行し、
      前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集し、
      前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶し、  前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する、
     故障予兆検出方法。
  10.  所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行処理と、
     前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集処理と、
     前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶する記憶処理と、
     前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成処理と、
     をコンピュータに実行させるための故障予兆検出プログラムが格納された記録媒体。
PCT/JP2018/033926 2017-09-14 2018-09-13 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体 WO2019054434A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/644,546 US20200264946A1 (en) 2017-09-14 2018-09-13 Failure sign detection device, failure sign detection method, and recording medium in which failure sign detection program is stored

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017176812A JP2019053486A (ja) 2017-09-14 2017-09-14 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム
JP2017-176812 2017-09-14

Publications (1)

Publication Number Publication Date
WO2019054434A1 true WO2019054434A1 (ja) 2019-03-21

Family

ID=65722804

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/033926 WO2019054434A1 (ja) 2017-09-14 2018-09-13 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体

Country Status (3)

Country Link
US (1) US20200264946A1 (ja)
JP (1) JP2019053486A (ja)
WO (1) WO2019054434A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021043891A (ja) * 2019-09-13 2021-03-18 株式会社日立製作所 ストレージシステム及びその制御方法
CN117130825A (zh) * 2023-01-30 2023-11-28 荣耀终端有限公司 防止电子设备异常运行的方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322810A (ja) * 1999-05-07 2000-11-24 Toshiba Corp 磁気ディスク装置の診断方法及び診断装置
JP2007335012A (ja) * 2006-06-15 2007-12-27 Fujitsu Ltd 制御装置および記憶装置
JP2008084392A (ja) * 2006-09-26 2008-04-10 Nec Corp 磁気ディスク装置、障害予測装置、磁気ディスク装置の障害予測方法
JP2009175818A (ja) * 2008-01-22 2009-08-06 Hitachi Ltd 稼働監視によるシステム内のハードディスクを交替するディスク管理方式
JP2010157266A (ja) * 2010-04-09 2010-07-15 Toshiba Corp 情報処理装置、故障予兆判定方法及びプログラム
JP2010277638A (ja) * 2009-05-28 2010-12-09 Hitachi High-Technologies Corp 磁気ヘッドセトリング時間を考慮した最適なシーク時間測定方法およびこの測定方法を使用する検査装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4409483B2 (ja) * 2005-06-30 2010-02-03 富士通株式会社 ストレージシステム、ストレージ制御装置及びストレージ制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322810A (ja) * 1999-05-07 2000-11-24 Toshiba Corp 磁気ディスク装置の診断方法及び診断装置
JP2007335012A (ja) * 2006-06-15 2007-12-27 Fujitsu Ltd 制御装置および記憶装置
JP2008084392A (ja) * 2006-09-26 2008-04-10 Nec Corp 磁気ディスク装置、障害予測装置、磁気ディスク装置の障害予測方法
JP2009175818A (ja) * 2008-01-22 2009-08-06 Hitachi Ltd 稼働監視によるシステム内のハードディスクを交替するディスク管理方式
JP2010277638A (ja) * 2009-05-28 2010-12-09 Hitachi High-Technologies Corp 磁気ヘッドセトリング時間を考慮した最適なシーク時間測定方法およびこの測定方法を使用する検査装置
JP2010157266A (ja) * 2010-04-09 2010-07-15 Toshiba Corp 情報処理装置、故障予兆判定方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021043891A (ja) * 2019-09-13 2021-03-18 株式会社日立製作所 ストレージシステム及びその制御方法
JP7273669B2 (ja) 2019-09-13 2023-05-15 株式会社日立製作所 ストレージシステム及びその制御方法
CN117130825A (zh) * 2023-01-30 2023-11-28 荣耀终端有限公司 防止电子设备异常运行的方法及电子设备

Also Published As

Publication number Publication date
JP2019053486A (ja) 2019-04-04
US20200264946A1 (en) 2020-08-20

Similar Documents

Publication Publication Date Title
US7434097B2 (en) Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
US8473779B2 (en) Systems and methods for error correction and detection, isolation, and recovery of faults in a fail-in-place storage array
JP2009151519A (ja) ストレージ管理装置、ストレージ管理プログラムおよびストレージシステム
JP2005322399A (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
JP2004005634A (ja) 記憶装置アレイ内の複数の記憶媒体にわたり負荷を均等に分散させる方法
JP5938965B2 (ja) マルチノードストレージシステムのノード装置および処理速度管理方法
US9910750B2 (en) Storage controlling device, storage controlling method, and non-transitory computer-readable recording medium
JP6515752B2 (ja) ストレージ制御装置、制御方法、および制御プログラム
US10346051B2 (en) Storage media performance management
JP5583052B2 (ja) 故障予測・対策方法及びクライアントサーバシステム
JP2017091456A (ja) 制御装置、制御プログラムおよび制御方法
US9141172B1 (en) Method and apparatus to manage and control a power state of a device set based on availability requirements of corresponding logical addresses
JP5488709B2 (ja) ストレージ制御装置における基準時間設定方法
US8370688B2 (en) Identifying a storage device as faulty for a first storage volume without identifying the storage device as faulty for a second storage volume
WO2019054434A1 (ja) 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体
CN113179665A (zh) 使用基于纠错的度量来识别性能不佳的数据存储设备
US7457990B2 (en) Information processing apparatus and information processing recovery method
JP5849491B2 (ja) ディスク制御装置、ディスク装置異常検出方法、及びプログラム
JP5949816B2 (ja) キャッシュ制御装置及びその制御方法、ストレージ装置、並びにコンピュータ・プログラム
US20110107317A1 (en) Propagating Firmware Updates In A Raid Array
JP5505329B2 (ja) ディスクアレイ装置及びその制御方法
JP2012018481A (ja) ディスクアレイ装置およびディスクアレイ制御方法
JP4605374B2 (ja) 記憶装置の試験方法及び装置
JP2023134170A (ja) 記憶媒体管理装置、記憶媒体管理方法および記憶媒体管理プログラム
JP2019159416A (ja) データ管理装置、ファイルシステム、データ管理方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18856073

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18856073

Country of ref document: EP

Kind code of ref document: A1