WO2014118874A1 - ストレージシステム - Google Patents

ストレージシステム Download PDF

Info

Publication number
WO2014118874A1
WO2014118874A1 PCT/JP2013/051834 JP2013051834W WO2014118874A1 WO 2014118874 A1 WO2014118874 A1 WO 2014118874A1 JP 2013051834 W JP2013051834 W JP 2013051834W WO 2014118874 A1 WO2014118874 A1 WO 2014118874A1
Authority
WO
WIPO (PCT)
Prior art keywords
trace information
storage
information
port
system trace
Prior art date
Application number
PCT/JP2013/051834
Other languages
English (en)
French (fr)
Inventor
和宏 安原
Original Assignee
株式会社 日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 日立製作所 filed Critical 株式会社 日立製作所
Priority to PCT/JP2013/051834 priority Critical patent/WO2014118874A1/ja
Priority to US14/004,715 priority patent/US8886888B2/en
Publication of WO2014118874A1 publication Critical patent/WO2014118874A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0665Virtualisation aspects at area level, e.g. provisioning of virtual or logical volumes

Definitions

  • the present invention relates to a storage system.
  • dump information failure information
  • a usage environment of a single disk subsystem or a remote copy environment between disk subsystems connected in a one-to-one relationship collecting dump information for each unit does not cause a big problem in failure analysis.
  • failure information collected at the same time zone for example, dump information that is processing progress information of the system control program (microprogram) is available. Is desirable. Furthermore, not only the problem between the disk subsystems, but even when a processing delay problem between the host computer and the disk subsystem occurs, all of the disk subsystems execute the processing in a coordinated manner. It is desirable to collect dump information from the subsystem.
  • the disk subsystem information is collected from the maintenance terminal in order to analyze the cause of the problem.
  • This collected information is read as dump information or simply dump, and the memory information in the disk subsystem, the error code left by the microprogram, the system trace information in which the detailed operation history of the microprogram is recorded, and the user operation log Contains information.
  • system trace is important for analyzing the behavior of microprograms.
  • Information is recorded in the system trace area according to the order of processing of the microprogram. However, since the recording area is limited, old information is overwritten.
  • the purpose of the present invention is not limited to the remote copy environment, but dump information immediately after the occurrence of a problem such as a failure between the host computer and the disk subsystem is collected from all the disk subsystems at the same time, thereby promptly analyzing the problem and handling the failure. Is to realize.
  • writing of the system trace and the system trace information in the storage area is stopped at the timing of occurrence of the problem.
  • the system trace and writing of the system trace information to the storage area are stopped not only for the disk subsystem in which the problem has occurred, but also for all other connected disk subsystems.
  • dump information including system trace information is collected and stored in a storage area other than the system trace information storage area.
  • FIG. 1 is a diagram illustrating the concept of the present invention.
  • FIG. 2 is a block diagram showing the disk controller section of the disk subsystem according to the present invention.
  • FIG. 3 is a diagram showing a connection configuration of disk subsystems in a one-to-one remote copy environment.
  • FIG. 4 is a diagram showing a connection configuration of the disk subsystem in the external storage usage environment.
  • FIG. 5 is a diagram showing a connection configuration of disk subsystems in an M-to-N remote copy environment.
  • FIG. 6 is a diagram showing a connection configuration of disk subsystems in a multi-target remote copy environment of three data centers.
  • FIG. 7 is a diagram showing a connection configuration of disk subsystems in a cascade remote copy environment of three data centers.
  • FIG. 1 is a diagram illustrating the concept of the present invention.
  • FIG. 2 is a block diagram showing the disk controller section of the disk subsystem according to the present invention.
  • FIG. 3 is a diagram showing a connection configuration of disk
  • FIG. 8 is a diagram showing a connection configuration of disk subsystems in an environment using a plurality of different external storages.
  • FIG. 9 is a diagram for explaining detection of a problem due to a system response and a load state of hardware resources in the first embodiment.
  • FIG. 10 is a diagram for explaining detection of a problem due to a system response and a load state of hardware resources in the first embodiment.
  • FIG. 11 is a diagram illustrating a monitoring operation for detecting the occurrence of a problem.
  • FIG. 12 is a diagram for explaining a data update stop operation to the system trace information storage area.
  • FIG. 13 is a diagram for explaining an operation of issuing a system trace stop instruction.
  • FIG. 14 is a diagram for explaining the dump information transfer operation.
  • FIG. 15 is a diagram for explaining dump information collection processing.
  • FIG. 16 is a diagram for explaining a process of transferring dump information to the SVP.
  • FIG. 17 is a diagram for explaining detection of a problem due to a disk subsystem operating status in the second embodiment.
  • FIG. 18 is a diagram illustrating dump information collection processing.
  • the program is executed by a processor, for example, an MP (Micro Processor) or a CPU (Central Processing Unit), and performs a predetermined process.
  • the processing subject may be a processor because the storage resource (for example, a memory) and a communication interface device (for example, a communication port) are used as appropriate.
  • the processor may have dedicated hardware in addition to the CPU.
  • the computer program may be installed on each computer from a program source.
  • the program source may be provided by, for example, a program distribution server or a storage medium.
  • each element for example, the controller can be identified by a number or the like, but other types of identification information such as a name may be used as long as it is identifiable information.
  • identification information such as a name
  • the same reference numerals are given to the same parts, but the present invention is not limited to the present embodiment, and any application examples that meet the idea of the present invention are technical. Included in the range. Further, unless specifically limited, each component may be plural or singular.
  • FIG. 1 is a diagram showing the concept of the present invention.
  • the disk subsystem includes a DKC (Disk Controller) 1 that is a controller unit that controls the entire system. Further, inside the DKC 1, there are a microprogram 10 that executes control of the entire system and a system trace information storage area 11 that stores an execution result (system trace information) of the microprogram 10.
  • DKC disk Controller
  • the system trace information storage area 11 is sequentially stored from the execution result of the first process A, and becomes full when the storage up to the process F is completed.
  • the system trace information of the next process G is overwritten with the information of the process A at the head of the area, which is the oldest information.
  • the system trace is to trace the order in which programs are processed.
  • the dump information is information such as processing contents in a program saved in a memory such as the system trace information storage area 11, a history such as a warning, contents of a file or memory, and is also called a log.
  • the microprocessor in the DKC 1 stops storing in the system trace information storage area 11 (storage stop 15) when a failure occurs (failure occurrence 14). That is, as shown by reference numeral 13, the execution results after processing H are not stored in the system trace information storage area 11. Then, dump information of process G is collected from process B as indicated by reference numeral 16, and transferred to and stored in a maintenance terminal called SVP (Service Processor) described later. Further, a system trace stop instruction 17 is sent to another DKC connected to the DKC 1, in FIG. 1, DKC 2, the storage stop in the system trace information storage area 11 in the DKC 2, dump information collection, and the collected dump information Transfer to SVP is executed. That is, dump information is simultaneously collected by each DKC at the time of failure occurrence and stored in the SVP.
  • SVP Service Processor
  • a remote copy environment an environment in which data replication is performed remotely from a primary DKC to a secondary DKC installed at a location different from the primary DKC
  • FIG. 2 is a block diagram showing the disk controller section of the disk subsystem according to the present invention.
  • the disk subsystem includes a DKC 21 and an SVP 29, and is connected to a host computer (hereinafter referred to as a host) 20 via a target port 28. Data from the host 20 is stored in a user volume 25.
  • the initiator port / external port 26 and the RCU (Remote Control Unit) target port 27 are ports connected to other DKCs via fiber channels. Configure a storage system by connecting multiple disk subsystems to create a remote copy environment.
  • a microprocessor (not shown, hereinafter referred to as MP) for operating various programs such as a micro program 2211 and an SVP communication program 222, which are real-time OSs stored in a nonvolatile memory 221 such as a flash memory, is provided.
  • MP units microprocessor units 22 mounted in plural.
  • a local memory (hereinafter referred to as LM) 223 exists on each MP unit 22, and performance data 2231 used for controlling a system trace stop to be described later is stored on the LM 223.
  • the system trace information in the system trace to be stopped is stored in the system trace information storage area 2233, which is a dedicated area on the LM 223.
  • the LM 223 has a dump area 2232 which is a memory area used by the microprogram 2211 for program control.
  • the dump area 2232 stores system trace information of the MP unit 22 alone, and system trace information of this area is also collected when collecting dump information.
  • a shared memory (hereinafter referred to as SM) 23 is a memory in which a plurality of MPs or MP units 22 share system control information and data.
  • SM 23 On the SM 23, there is a dump area 231 for storing system trace information relating to the entire DKC 21.
  • the SM 23 has a cache area 232 for temporarily storing data from the host 20 or data to the host 20.
  • the MP uses the SVP communication program 222 to dump the system trace information stored in the system trace information storage area 2233, the dump area 2232 of the LM 223, and the dump area 231 of the SM 23, respectively.
  • SVP 29 To SVP 29.
  • the SVP 29 is a CPU for controlling the entire system, an input device for inputting information (for example, a pointing device such as a keyboard and a mouse), an output device for outputting information (for example, a display and a printer), A communication port (for example, a USB (Universal Serial Bus) port or a LAN (Local Area Network) port) that transmits and receives information between a storage device that is a storage medium such as a memory or HDD that records information and other systems. Is provided.
  • the input device sets a performance threshold and a performance threshold excess time range, which will be described later, and displays the performance data of the hardware resource, the acquired dump information, and the like on the output device.
  • the SVP 29 that has received the system trace information from the DKC 21 stores the system trace information therein as dump information 291.
  • the DKC 21 has a special volume 24 that can receive an instruction from the microprogram 2211 and is called a command device.
  • the special volume 24 receives a system trace stop instruction from another DKC and transmits a system trace stop instruction to another DKC. Details will be described later.
  • ⁇ Applicable environment for dump information collection> As a method of transmitting a trace stop command to a connected disk subsystem other than the disk subsystem where the problem occurred, in a remote copy environment or an external storage connection environment, the disk subsystems are connected to each other via Fiber Channel. The exchange is carried out. Accordingly, in the present invention, the system trace is instructed to the DKC connected via the fiber channel connection path (remote copy connection path / external storage connection path).
  • the application environment for dump information collection in the present invention will be described with reference to FIGS.
  • FIG. 3 is a diagram showing a disk subsystem connection configuration in a one-to-one remote copy environment.
  • FIG. 4 is a diagram showing a connection configuration of the disk subsystem in the external storage usage environment.
  • FIG. 5 is a diagram showing a connection configuration of disk subsystems in an M-to-N remote copy environment.
  • FIG. 6 is a diagram showing a connection configuration of disk subsystems in a three data center (hereinafter 3DC) multi-target remote copy environment.
  • FIG. 7 is a diagram showing a connection configuration of disk subsystems in a 3DC cascade remote copy environment.
  • FIG. 8 is a diagram showing a connection configuration of disk subsystems in an environment using a plurality of different external storages.
  • the disk subsystem is described as DKC.
  • FIG. 3 is an environment in which the remote copy 34 is executed between the volume 313 of the primary DKC 30 and the volume 313 of the secondary DKC 31.
  • the primary DKC 30 and the secondary DKC 31 are connected by a remote copy connection path 33. That is, the initiator port 301 and the RCU target port 312 are connected by the remote copy connection path 32. Similarly, the initiator port 311 and the RCU target port 302 are connected by the remote copy connection path 33.
  • a system trace stop instruction is transmitted / received through the remote copy connection path 32/33.
  • the DKC 40 and the external DKC 41 connect the external port 401 and the target port 411 with the external storage connection path 42, thereby making the external volume 412 a virtual volume 402 and a virtual volume mapping 43. It is. As in FIG. 3, a system trace stop instruction is transmitted / received through the external storage connection path 42.
  • the primary DKC1 51 of the primary site 5a and the secondary DKC1 54 of the secondary site 5b are connected to realize remote copy between the primary volume 511 and the secondary volume 541.
  • the primary DKC 2 52 and the secondary DKC 2 55 are connected to perform remote copy between the primary volume 521 and the secondary volume 551.
  • Such a connection is made up to M primary DKCs and N secondary DKCs, thereby realizing a remote copy environment (referred to as an M ⁇ N universal replicator) across a plurality of cases ((M + N) units).
  • the system trace stop instruction is transmitted and received through the remote copy connection path described in FIG.
  • P sub DKCs are connected to the subsequent stage of N sub DKCs, and there is a case where dump information is collected from a large number of (M + N + P) DKCs and the problem is analyzed.
  • the primary DKC 1 61, the secondary DKC 1 62, and the secondary DKC 2 63 are connected, and remote copy is performed between the primary volume 611, the secondary volume 621, and the secondary volume 631.
  • the primary DKC 1 61 and the secondary DKC 1 62 are connected, and the secondary DKC 1 62 is connected as the primary DKC 1 to the secondary DKC 2 63.
  • the external storage (DKC) 72 of company A and the external storage (DKC) 73 of company B are connected to the disk subsystem (DKC) of company A (in-house).
  • the external volume 721 is virtual volume mapped to the virtual volume 711 as indicated by reference numeral 74
  • the external volume 731 is virtual volume mapped to the virtual volume 712 as indicated by reference numeral 75.
  • the system trace stop instruction transmission / reception and dump information collection / transfer of the present invention are for DKC71 and DKC72 manufactured by the company, but not for DKC73 manufactured by other companies.
  • the present invention can be applied not only to the above-described plural DKC environments but also to an environment with one DKC. Furthermore, it is possible to send and receive a system trace stop instruction and collect dump information using a general public line such as the Internet that can be connected to the SVP instead of a dedicated line such as a fiber channel.
  • a general public line such as the Internet that can be connected to the SVP instead of a dedicated line such as a fiber channel.
  • FIGS. 9 and 10 are diagrams for explaining detection of a problem due to a system response and a load state of hardware resources in the first embodiment.
  • the performance degradation problem between the host 20 and the disk subsystem (DKC) 21 is included in the most difficult category.
  • DKC disk subsystem
  • dump information is collected not only once, but when the conditions that trigger dump information collection are met, dump information is collected every time, and dump information for a plurality of generations is stored in the SVP.
  • the performance data (performance data 2231 on the LM 223) periodically collected by the micro program 2211 of the DKC 21 is used as a system trace stop condition.
  • the types of performance data to be used are shown below.
  • (P1) Response time of the port connected to the host 20 (p2) Response time of the port used in the remote copy IO (p3) LDEV (logical device) response time (p4) MP operation rate (p5) PG (Parity Group) : Parity group) Operation rate (p6) Cache write wait rate
  • the response time of the port connected to the host 20 is an average time from the reception of a command from the host 20 to the response of the target port 28 in the target port 28 connected to the host 20.
  • the transfer amount per unit time of the target port 28 may be used.
  • the response time of the port used in the remote copy IO is the time until the port responds to a command from the host in the port (initiator / external port 26 to RCU target port 27) connected to the remote copy target disk subsystem. Average time. The transfer amount per unit time of the initiator / external port 26 or the RCU target port 27 may be used.
  • the LDEV response time indicates the processing time from when the disk subsystem (DKC 21) receives a command for a certain LDEV (for example, the user volume 25) from the host 20 until the response of the processing is returned.
  • the MP operation rate is a ratio indicating how much the microprocessor has been operating per unit time.
  • the PG operating rate is a ratio indicating how much a parity group composed of a plurality of storage media (for example, HDD (Hard Disk Drive)) was operating per unit time.
  • the cache write wait rate is the data stored in the cache memory area on the SM 23 after the disk subsystem (DKC 21) receives the data to be written to the storage medium from the host 20, but is not reflected in the storage medium. It is a percentage of the total storage capacity.
  • indexes such as the journal volume usage rate and HDD operating rate used during remote copying may be used.
  • condition A the response time of the port connected to the host 20 in (p1), the response time of the port used in the remote copy IO in (p2), the LDEV response time in (p3), and the performance thresholds set for each, A case where any one of (p1) to (p3) is exceeded is defined as “condition A”.
  • condition B is when the hardware resource is not overloaded.
  • These hardware resources are the above-mentioned (p4) MP operation rate, (p5) PG operation rate, (p6) cache write wait rate, and the performance thresholds set in (p4) to (p6) respectively.
  • condition B the case where all the loads (operation rate and write wait rate) from (p4) to (p6) are not exceeded is defined as “condition B”.
  • a case where both the conditions A and B are satisfied is a trigger for stopping the system trace.
  • the hardware usage rate 93 is the load from (p4) to (p6) described above.
  • the elapsed time 92 is T1
  • the port response time 91 exceeds the performance threshold 911, and the threshold is exceeded as indicated by reference numeral 912.
  • the hardware usage rate 93 exceeds the performance threshold 931, and the threshold is exceeded as indicated by reference numeral 932.
  • the response time of the port is increased due to overload (high usage rate) of hardware resources. Therefore, stop system trace and do not collect dump information.
  • the hardware resource usage rate 93 monitored by the microprogram 2211 is not an overload state but a steady state (a state below the performance threshold 931) in the monitoring time 913 from the time point T1 to the time point T2 ( No threshold exceeded 933). Therefore, since there is a high possibility that some unexpected problem has occurred in the disk subsystem (DKC 21), the system trace is stopped and dump information is collected.
  • the main subject of the operation is the microprogram 2211 that operates on the MP of the MP unit 22, but hardware resources such as an MP and other controllers may also be used.
  • FIG. 11 is a diagram illustrating a monitoring operation for detecting the occurrence of a problem.
  • FIG. 12 is a diagram for explaining a data update stop operation to the system trace information storage area.
  • FIG. 13 is a diagram for explaining an operation of issuing a system trace stop instruction.
  • FIG. 14 is a diagram for explaining the dump information transfer operation.
  • the microprogram 2211 monitors the following two operations and states that trigger the system trace stop.
  • the system trace stop instruction 123 from another DKC is issued to the special volume 24 connected to the RCU target port 27. Further, in the situation where the two states and operations are monitored as described above, the microprogram 2211 constantly updates the system trace information in the system trace information storage area 2233.
  • the microprogram 2211 stores the system trace information when one of the following two conditions (2a) or (2b) is met. Update of the system trace information to the area 2233 is stopped. The update of the system trace information to the dump area 2232 of the LM 223 and the dump area 231 of the SM 23 is not stopped. (2a) When the performance data to be monitored matches the threshold judgment condition (2b) When a system trace stop signal issued by another DKC is received
  • the microprogram 2211 confirms whether there is a remote copy target DKC or external storage connected to the DKC 21. If there is a remote copy target DKC or external storage connected to the DKC 21, the microprogram 2211 can connect to the DKC of the connection partner via the fiber channel protocol remote copy connection path or external storage connection path as shown in FIG. 13. Issue system trace stop signal.
  • the microprogram 2211 is stored in the dump area 2232 on the LM 223, the system trace information (dump information) stored in the system trace information storage area 2233, and the dump area 231 in the SM 23. Collect dump information and transfer the collected dump information to the SVP 29.
  • the SVP 29 saves the received dump information as dump information 291 in an internal volume.
  • the SVP 29 is a PC (Personal Computer) operating on an OS such as Windows (registered trademark), and stores dump information as a file with a name such as “XYZ.log”.
  • the dump information 291 includes an operation log that is a result of a user operating the DKC 21 on the host 20.
  • the dump information 291 transferred to the SVP 29 can be further sent to the maintenance center 1411 to analyze the problem. Also, dump information transferred from other DKCs 1401 scattered in remote locations connected to the DKC 21 to the SVP 1409 is also sent to the maintenance center 1411, and comprehensive problem analysis is performed with the two dump informations. It is also possible to apply to each DKC.
  • FIG. 15 is a diagram for explaining dump information collection processing. Next, a series of processing flows from system trace stop to dump information collection / transfer will be described with reference to FIG.
  • the main subject of the operation is the microprogram 2211 that operates on the MP of the MP unit 22, but hardware resources such as an MP and other controllers may also be used.
  • the microprogram 2211 determines whether there is a system trace stop instruction from another DKC (for example, the sub DKC 31 in FIG. 3). If there is an instruction, the microprogram 2211 executes S1508, and if not, executes the S1502.
  • the microprogram 2211 determines whether the port response time or LDEV response time of the DKC 21 exceeds the performance threshold. If both are not exceeded, the microprogram 2211 executes S1501 again, and if it exceeds, executes S1503. The processing of S1502 corresponds to determination as to whether the above-described condition A is satisfied.
  • step S1503 the microprogram 2211 determines whether the PG operation rate exceeds the performance threshold. If it has exceeded, the microprogram 2211 executes S1501 again, and if not, executes S1504.
  • step S1504 the microprogram 2211 determines whether the cache write wait rate exceeds the performance threshold. If it has exceeded, the microprogram 2211 executes S1501 again, and if not, executes S1505.
  • step S1505 the micro program 2211 determines whether the MP operation rate exceeds the performance threshold. If it has exceeded, the microprogram 2211 executes S1501 again, and if not, executes S1506.
  • the processing from S1503 to S1505 corresponds to the determination of whether or not the above-mentioned condition B is satisfied.
  • step S1506 the microprogram 2211 determines whether there is another DKC connected to the DKC 21. If it exists, the microprogram 2211 executes S1507, and if it does not exist, executes S1508.
  • step S1507 the microprogram 2211 issues a system trace stop instruction to another DKC.
  • this processing it becomes possible to stop the system trace and collect dump information in another DKC.
  • step S1508 the micro program 2211 stops system trace in the DKC 21.
  • step S1509 the microprogram 2211 executes a trace stop report to the SVP 29.
  • the micro program 2211 collects dump information of the DKC 21 and transfers the collected dump information to the SVP 29.
  • step S1511 the microprogram 2211 restarts the system trace after the transfer of the collected dump information to the SVP 29 is completed. After restarting the system trace, the microprogram 2211 returns the process to S1501.
  • FIG. 16 is a diagram for explaining transfer processing of dump information to the SVP. Next, a processing flow in the SVP 29 will be described with reference to FIG. The subject of processing is the CPU (not shown) of the SVP 29.
  • the CPU determines whether a system trace stop report has been received from the DKC 21. If there is no report, the CPU executes the process of S1601 again and waits for a report of system trace stop. If there is a report, the CPU executes S1602.
  • the CPU collects dump information from the DKC 21.
  • the CPU stores the collected dump information in the built-in HDD. After storing in the internal HDD, the CPU returns the process to step S1601.
  • the present invention can accurately collect dump information necessary for problem analysis. Moreover, dump information at the time of occurrence of a problem can be accurately and simultaneously collected from a plurality of DKCs. Therefore, the accuracy of problem analysis can be improved and the maintenance time can be shortened.
  • FIG. 17 is a diagram for explaining detection of a problem due to a disk subsystem operating status in the second embodiment.
  • Example 2 when the deviation from the average operating rate of the disk subsystem exceeds the set value, the system trace is stopped and dump information is collected. In many cases, the amount of work for the sub-disk system during the day has a periodicity depending on the work form of the user. Therefore, there is a high possibility that the input / output to / from the disk subsystem will have a certain pattern.
  • the operation status is monitored for a certain period, and a performance threshold for the average operation rate is created in the disk subsystem by using the average response time of the port throughout the day.
  • a performance threshold for the average operation rate is created in the disk subsystem by using the average response time of the port throughout the day.
  • As a condition for collecting dump information, there is a degree (ratio or time) of deviation from the performance threshold of the average operating rate, but the degree can be set to an arbitrary value. Similarly, the time when the performance threshold is exceeded can be set to an arbitrary value. In addition, in order to prevent unnecessary dump information collection, only a temporary increase in port or LDEV response time is monitored as in the above-described dump information collection trigger 1.
  • the performance threshold 1711 of the average operating rate that is an index of the average response time of the entire day is set at the port response time 171 and the time 172 in FIG. Note that the performance threshold 1711 of the average operating rate can be set not by the port response time but by the LDEV response time. Then, a port response time curve 1712 is created from the actual port response time and compared with the performance threshold value 1711.
  • the excess ratio (R1) or excess time (T5) of the port response time curve 1712 exceeding the performance threshold 1711 exceeds a preset reference value 1713 (reference value excess occurrence 1714, condition C), and the reference value excess
  • the dump information is collected when the duration (from T3 to T4) is within a time threshold (condition D) within a preset time range.
  • FIG. 18 is a diagram for explaining dump information collection processing. Next, a series of processing flow from system trace stop to dump information collection / transfer in the second embodiment will be described with reference to FIG.
  • the main subject of the operation is the microprogram 2211 that operates on the MP of the MP unit 22, but hardware resources such as an MP and other controllers may also be used.
  • step S1801 the micro program 2211 checks the performance data 2231 on the LM 223.
  • the microprogram 2211 compares the actual port response time curve 1712 with the performance threshold value 1711, and determines whether there is a deviation from the reference value. That is, it is determined whether or not the system state satisfies the conditions C and D as described above. If both conditions are not satisfied (No in S1802), the microprogram 2211 executes S1809. If both conditions are satisfied (Yes in S1802), the microprogram 2211 executes S1803.
  • the processing from S1803 to S1808 is the same as the processing from S1506 to S1511 described above. Further, the processing in S1809 is the same as the processing in S1501.
  • the performance threshold 1711 is obtained by measuring the daily port response time or LDEV response time, and the dump is collected based on the deviation from the actual port response time curve 1712.
  • the dump information necessary for problem analysis can be collected accurately.
  • dump information at the time of occurrence of a problem can be accurately and simultaneously collected from a plurality of DKCs. Therefore, the accuracy of problem analysis can be improved and the maintenance time can be shortened.
  • this invention is not limited to the above-mentioned Example, Various modifications are included. Further, the above-described embodiments are described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described. Further, a part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. Further, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.
  • each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function may be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • a recording device such as an SSD (Solid State Drive)
  • a recording medium such as an IC card, an SD card, or a DVD.
  • control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 ディスクサブシステムでの問題解析の精度を向上させるために、本発明では問題発生のタイミングでシステムトレースとシステムトレース情報の格納領域への書き込みを停止する。そして、システムトレースとシステムトレース情報の格納領域への書き込みの停止は、問題障害が発生したディスクサブシステムだけでなく、接続されている他のディスクサブシステム全てに対して行う。そして、保守端末によりシステムトレース情報を含むダンプ情報を採取する。

Description

ストレージシステム
 本発明は、ストレージシステムに関する。
 これまでのディスクサブシステムでは、障害情報(ダンプ情報)の採取は1台毎に実施していた。ディスクサブシステム単体での使用環境や、1対1で接続されるようなディスクサブシステム間のリモートコピー環境では、1台毎のダンプ情報の採取でも障害解析において大きな問題は発生しない。
 しかしながら、近年のリモートコピー環境では、複数のディスクサブシステムに跨る構成が多い。例えば、コピー元の正サイトとコピー先の副サイト間でディスクサブシステム4台ずつのリモートコピーを実施する環境(Universal Replicator 4対4)では、8台のディスクサブシステムに跨った順序性を保ったデータのレプリケーションを実施している。
 そのため、何らかの障害が発生した場合に迅速な障害回復アクションを実施するためには、同じ時間帯に採取した障害情報、例えば、システム制御プログラム(マイクロプログラム)の処理経過情報であるダンプ情報が揃うことが望ましい。更に、ディスクサブシステム間だけの問題ではなく、ホスト計算機とディスクサブシステム間の処理遅延問題が発生した場合でも、複数台のディスクサブシステムが連携して処理を実行していることから、全てのサブシステムからのダンプ情報の採取が望ましい。
 そのため、特許文献1のように、ディスクサブシステムで障害が発生した場合、その障害情報であるダンプ情報をホスト計算機に送信する技術が提案されている。
日本公表特許2010-524053号公報              (米国公開特許2008/0244331号公報)
 ディスクサブシステムにおいて問題が発生した場合、問題の原因を解析するために、ディスクサブシステムの情報を保守端末より採取する。この採取した情報をダンプ情報ないし単にダンプと読んでおり、ディスクサブシステム内のメモリ情報やマイクロプログラムが残すエラーコード、更にマイクロプログラムの詳細な動作履歴が記録されているシステムトレース情報、ユーザ操作ログ情報などが含まれている。
 この中でも、マイクロプログラムの動きを解析するに当たり重要となるのはシステムトレースである。システムトレース領域は、マイクロプログラムの処理の順番に従い、情報が記録されている。しかし、この記録するための領域は有限であるため、古い情報は上書きされる。
 つまり、ダンプ情報の採取が遅れた場合、その後のディスクサブシステム上の処理により、解析に必要な問題発生時の情報が、上書きされてしまう可能性がある。また、リモートコピー環境では、ディザスタリカバリの観点から、各ディスクサブシステムは遠隔地に点在して配置されていることがほとんどであり、保守員が出向いて保守を実行するまでに時間を要する。そのため、全てのディスクサブシステムのダンプ情報を同じ時間帯に採取することは困難な場合が多い。
 本発明の目的は、リモートコピー環境に限らず、ホスト計算機とディスクサブシステム間の障害等の問題発生直後のダンプ情報を、全てのディスクサブシステムから同時に採取して、迅速な問題解析と障害対応を実現することにある。
 上記課題を解決するために、本発明では、問題発生のタイミングでシステムトレースとシステムトレース情報の格納領域への書き込みを停止する。システムトレースとシステムトレース情報の格納領域への書き込みの停止は、問題障害が発生したディスクサブシステムだけでなく、接続されている他のディスクサブシステム全てに対して行う。そして、システムトレース情報を含むダンプ情報を採取し、システムトレース情報の格納領域以外の格納領域に保存する。
 本発明では、問題発生のタイミングで全ディスクサブシステムのシステムトレースとシステムトレース情報の格納領域への書き込みの停止が可能となるので、問題解析に必要なダンプ情報を確実に採取でき、問題を短時間で容易に解析ができる。前述以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
図1は、本発明の概念を示す図である。 図2は、本発明でのディスクサブシステムのディスクコントローラ部を示すブロック図である。 図3は、1対1リモートコピー環境でのディスクサブシステムの接続構成を示す図である。 図4は、外部ストレージ使用環境でのディスクサブシステムの接続構成を示す図である。 図5は、M対Nリモートコピー環境でのディスクサブシステムの接続構成を示す図である。 図6は、3データセンタのマルチターゲットリモートコピー環境でのディスクサブシステムの接続構成を示す図である。 図7は、3データセンタのカスケードリモートコピー環境でのディスクサブシステムの接続構成を示す図である。 図8は、複数の異なる外部ストレージを使用する環境でのディスクサブシステムの接続構成を示す図である。 図9は、実施例1でのシステム応答とハードウェアリソースの負荷状態による問題発生の検知を説明する図である。 図10は、実施例1でのシステム応答とハードウェアリソースの負荷状態による問題発生の検知を説明する図である。 図11は、問題発生を検知するための監視動作を説明する図である。 図12は、システムトレース情報記憶領域へのデータ更新の停止動作を説明する図である。 図13は、システムトレース停止指示の発行動作を説明する図である。 図14は、ダンプ情報の転送動作を説明する図である。 図15は、ダンプ情報の採取処理を説明する図である。 図16は、SVPへのダンプ情報の転送処理を説明する図である。 図17は、実施例2でのディスクサブシステム稼働状況による問題発生の検知を説明する図である。 図18は、ダンプ情報採取の処理を説明する図である。
 以下、図面を参照しながら本発明の実施の形態を説明する。なお、以下の説明では、「xxx情報」等の表現にて各種情報を説明することがあるが、各種情報は、テーブルなどのデータ構造で表現されていてもよい。
 また、「プログラム」を主語として処理を説明する場合がある。そのプログラムは、プロセッサ、例えば、MP(Micro Processor)やCPU(Central Processing Unit)によって実行されるもので、定められた処理をするものである。なお、適宜に記憶資源(例えば、メモリ)及び通信インタフェース装置(例えば、通信ポート)を用いながら行うため、処理の主語がプロセッサとされてもよい。プロセッサは、CPUの他に専用ハードウェアを有していても良い。コンピュータプログラムは、プログラムソースから各コンピュータにインストールされても良い。プログラムソースは、例えば、プログラム配布サーバ又は記憶メディアなどで提供されるものであっても良い。
 また、各要素、例えば、コントローラは番号などで識別可能であるが、識別可能な情報であれば、名前など他種の識別情報が用いられても良い。本発明の図及び説明において同一部分には同一符号を付与しているが、本発明が本実施例に制限されることは無く、本発明の思想に合致するあらゆる応用例が本発明の技術的範囲に含まれる。また、特に限定しない限り、各構成要素は複数でも単数でも構わない。
<発明の概念>
 本発明の概念を図1で説明する。
 図1は、本発明の概念を示す図である。ディスクサブシステムには、システム全体を制御するコントローラ部であるDKC(Disk Controller)1がある。また、DKC1内部には、システム全体の制御を実行するマイクロプログラム10と、そのマイクロプログラム10の実行結果(システムトレース情報)を保存するシステムトレース情報記憶領域11がある。
 システムトレース情報記憶領域11には、最初の処理Aの実行結果から順に格納され、処理Fまでの格納が完了した時点で満杯となる。次の処理Gのシステムトレース情報は、一番古い情報となる領域先頭の処理Aの情報を上書きして保存する。なお、このシステムトレースとは、プログラムが処理される順序を追跡することである。
 障害等の問題発生後、迅速なダンプ情報の採取が実施できない場合、障害発生時の重要な情報がその後の処理実行により、上書きされてしまい原因究明が困難となる。つまり、障害発生14以降に、処理Hのシステムトレース情報13が処理Bに上書きされてしまう。このような上書きが、保守員によるシステムトレース情報記憶領域11への格納停止15まで継続されてしまい、障害の解析に必要な情報が消失してしまう。ちなみに、ダンプ情報とはシステムトレース情報記憶領域11などのメモリ上に保存されたプログラムでの処理内容、警告などの履歴、ファイルやメモリの内容などの情報で、ログとも呼ばれる。
 そこで、本発明では、DKC1内部のマイクロプロセッサなどが、障害が発生した時点(障害発生14)で、システムトレース情報記憶領域11への格納を停止する(格納停止15)。すなわち、符号13に示すように処理H以降の実行結果をシステムトレース情報記憶領域11に格納しない。そして、符号16に示すように処理Bから処理Gのダンプ情報を採取し、後述するSVP(Service Processor)と呼ばれる保守端末に転送し保存する。更に、DKC1に接続されている他のDKC、図1ではDKC2に対しシステムトレース停止指示17を送り、DKC2でのシステムトレース情報記憶領域11への格納停止、ダンプ情報の採取と採取したダンプ情報のSVPへの転送を実行させる。つまり、障害発生時点でそれぞれのDKCで同時にダンプ情報を採取しSVPへ保存する。
 以上のように、複数のDKCが接続されて使用される環境、例えば、リモートコピー環境(正DKCから正DKCと異なる場所に設置された副DKCへリモートでデータ複製を実行する環境)などでも、ディスクサブシステムの設置場所による問題からタイムリーな情報採取ができないという課題を解決でき、また、原因究明に必要な情報を迅速にかつ的確に採取できるので、問題現象の再発を待って再度ダンプ情報の採取を試みる必要もなくなる。
<ディスクサブシステム内部構成>
 図2は、本発明でのディスクサブシステムのディスクコントローラ部を示すブロック図である。
 ディスクサブシステムは、DKC21とSVP29を備え、ターゲットポート28を介して、ホスト計算機(以下、ホスト)20と接続され、ホスト20からのデータはユーザボリューム25に格納される。イニシエータポート/外部ポート26、RCU(Remote Controll Unit)ターゲットポート27は、他のDKCとファイバチャネル経由で接続されるポートである。複数のディスクサブシステムを接続してストレージシステムを構成しリモートコピー環境を構築する。
 DKC21内には、フラッシュメモリなどの不揮発性メモリ221に格納されたリアルタイムOSであるマイクロプログラム2211やSVP通信プログラム222などの各種プログラムを動作させるためのマイクロプロセッサ(図示せず、以下、MP)を複数搭載したマイクロプロセッサ部(以下、MP部)22が複数存在する。各MP部22上には、ローカルメモリ(以下、LM)223が存在し、このLM223上に後述するシステムトレース停止を制御するために使用される性能データ2231が記憶される。
 また、停止させるシステムトレースでのシステムトレース情報は、LM223上の専用エリアであるシステムトレース情報記憶領域2233に記憶される。更にLM223には、これ以外にも、マイクロプログラム2211がプログラムの制御用に使用しているメモリエリアであるダンプ領域2232が存在する。このダンプ領域2232には、MP部22単体のシステムトレース情報が格納され、ダンプ情報の採取時にこの領域のシステムトレース情報も採取される。
 また、共有メモリ(以下、SM)23は、複数のMPないしMP部22でシステムの制御情報やデータを共有するメモリである。このSM23上にDKC21全体に関するシステムトレース情報を格納するためのダンプ領域231がある。また、SM23には、ホスト20からのデータないしホスト20へのデータを一時的に格納しておくキャッシュ領域232がある。マイクロプログラム2211によりダンプが実行されると、MPがSVP通信プログラム222を用いて、システムトレース情報記憶領域2233、LM223のダンプ領域2232、SM23のダンプ領域231それぞれに格納されたシステムトレース情報をダンプ情報としてSVP29に転送する。
 SVP29は、図示していないがシステム全体を制御するCPUと、情報を入力する入力装置(例えば、キーボード、マウスなどのポインティングデバイス)と、情報を出力する出力装置(例えば、ディスプレイやプリンタ)と、情報を記録するメモリやHDDなどの記憶媒体である記憶デバイと、他のシステムとの間で情報の送受信を行う通信ポート(例えば、USB(Universal Serial Bus)ポート、LAN(Local Area Network)ポート)を備える。入力装置により後述する性能閾値や性能閾値の超過時間範囲などを設定し、ハードウェアリソースの性能データや取得したダンプ情報などを出力装置に表示させる。
 DKC21からのシステムトレース情報を受信したSVP29は、そのシステムトレース情報をダンプ情報291として内部に保存する。また、DKC21には、マイクロプログラム2211からの命令を受信することが出来る特殊ボリューム24があり、コマンドデバイスと呼ばれる。この特殊ボリューム24で他のDKCからのシステムトレース停止指示の受信や他のDKCへのシステムトレース停止指示の送信を行う。詳細は後述する。
<ダンプ情報採取の適用環境>
 問題が発生したディスクサブシステム以外の接続しているディスクサブシステムにトレース停止命令を伝達する方法として、リモートコピー環境や外部ストレージ接続環境では、ディスクサブシステム同士が、ファイバチャネル経由で接続され情報のやり取りを実施している。そこで、本発明では、このファイバチャネル接続パス(リモートコピー接続パス/外部ストレージ接続パス)経由で接続されるDKCにシステムトレースの停止を指示する。本発明におけるダンプ情報採取の適用環境について、図3から図8で説明する。
 図3は、1対1リモートコピー環境でのディスクサブシステムの接続構成を示す図である。図4は、外部ストレージ使用環境でのディスクサブシステムの接続構成を示す図である。図5は、M対Nリモートコピー環境でのディスクサブシステムの接続構成を示す図である。図6は、3データセンタ(以下、3DC)マルチターゲットリモートコピー環境でのディスクサブシステムの接続構成を示す図である。図7は、3DCカスケードリモートコピー環境でのディスクサブシステムの接続構成を示す図である。図8は、複数の異なる外部ストレージを使用する環境でのディスクサブシステムの接続構成を示す図である。ここでは、ディスクサブシステムをDKCとして説明する。
 図3のリモートコピー環境は、正DKC30のボリューム303と副DKC31のボリューム313の間でリモートコピー34を実行する環境である。正DKC30と副DKC31とは、リモートコピー接続パス33で接続されている。すなわち、イニシエータポート301とRCUターゲットポート312とがリモートコピー接続パス32で接続されている。同じく、イニシエータポート311とRCUターゲットポート302とでリモートコピー接続パス33で接続されている。本発明では、このリモートコピー接続パス32/33でシステムトレースの停止指示の送受信を行う。
 図4の外部ストレージ使用環境では、DKC40と外部DKC41が、外部ポート401とターゲットポート411を外部ストレージ接続パス42で接続することで、外部ボリューム412を仮想ボリューム402として、仮想ボリュームマッピング43とするものである。図3と同じく、外部ストレージ接続パス42でシステムトレースの停止指示の送受信を行う。
 図5の複数筐体でのリモートコピー環境では、正サイト5aの正DKC1 51と副サイト5bの副DKC1 54とを接続し正ボリューム511と副ボリューム541とのリモートコピーを実現する。また、同じく、正DKC2 52と副DKC2 55とを接続し正ボリューム521と副ボリューム551とのリモートコピーを行う。このような接続をM台の正DKCとN台の副DKCまで行い、複数の筐体((M+N)台)に跨るリモートコピー環境(これを、M×Nユニバーサルリプリケータと呼ぶ)を実現する。
 このような複数の筐体に跨るリモートコピー環境でも、図3で説明したリモートコピー接続パスによりシステムトレースの停止指示の送受信を行う。なお、N台の副DKCの後段にP台の副DKCを接続した構成もあり、(M+N+P)台という多数のDKCからダンプ情報を採取し問題を解析するケースもある。
 図6の3DCマルチターゲットでのリモートコピー環境では、正DKC1 61と、副DKC1 62及び副DKC2 63とを接続し、正ボリューム611と、副ボリューム621及び副ボリューム631との間でリモートコピーを行う。図7の3DCカスケードでのリモートコピー環境では、正DKC1 61と副DKC1 62とを接続し、更に副DKC1 62を正DKC1として副DKC2 63と接続する。
 そして、正ボリューム611と副ボリューム621とのリモートコピー及び副ボリューム621を正ボリュームとして副ボリューム631とのリモートコピーを行う。このような3DCでのリモートコピー環境でも、図3で説明したリモートコピー接続パスによりシステムトレースの停止指示の送受信を行う。
 図8の外部ストレージの接続環境では、A社(自社製)のディスクサブシステム(DKC)に、A社の外部ストレージ(DKC)72とB社(他社製)の外部ストレージ(DKC)73が接続されている。この外部ストレージの接続環境では、符号74で示すように外部ボリューム721が仮想ボリューム711に仮想ボリュームマッピングされ、符号75で示すように外部ボリューム731が仮想ボリューム712に仮想ボリュームマッピングされる。なお、本発明のシステムトレースの停止指示の送受信及びダンプ情報採取・転送については、自社製のDKC71及びDKC72を対象とし、他社製のDKC73は対象外とする。
 また、本発明では、前述のような複数のDKC環境でなくとも、DKC1台の環境でも適用可能である。更に、ファイバチャネルなどの専用線ではなくSVPに接続できるインターネットなどの一般公衆回線を用いて、システムトレースの停止指示の送受信及びダンプ情報採取などを行うことも可能である。
<実施例1>
<ダンプ情報の採取契機1>
 図9及び図10は、実施例1でのシステム応答とハードウェアリソースの負荷状態による問題発生の検知を説明する図である。
 障害解析において、ホスト20とディスクサブシステム(DKC)21間の性能劣化問題が最も難しい部類に含まれる。この問題の原因解析と解決策検討のためには、問題発生直後のダンプ情報の採取が非常に重要となる。そこで、本発明では、DKC自身及び接続しているDKCでのシステムトレースを停止させ、各SVPで担当するDKCのシステムトレース情報をダンプ情報(障害情報)として採取し、SVP内部のボリュームにダンプ情報を保存する。
 また、ダンプ情報の採取は一度だけではなく、ダンプ情報の採取契機となる条件に合致した場合には、毎回ダンプ情報の採取を行い、複数世代に亘るダンプ情報をSVPに保存する。このように複数世代に亘るダンプ情報を解析することにより、障害の原因究明の精度が向上し解析時間を短縮することができる。
 次にシステムトレース停止とダンプ情報の採取契機について、図9及び図10で説明する。DKC21のマイクロプログラム2211が定期的に採取している性能データ(LM223上の性能データ2231)をシステムトレース停止の条件として使用する。使用する性能データの種類は以下に示すものである。
 (p1)ホスト20に接続されているポートの応答時間
 (p2)リモートコピーIOで使用するポートの応答時間
 (p3)LDEV(論理デバイス)応答時間
 (p4)MP稼働率
 (p5)PG(Parity Group:パリティグループ)稼働率
 (p6)キャッシュ書き込み待ち率
 ホスト20に接続されているポートの応答時間は、ホスト20と接続されるターゲットポート28において、ホスト20からの命令を受領してからターゲットポート28が応答するまでの平均時間である。なお、ターゲットポート28の単位時間当たり転送量でもよい。
 リモートコピーIOで使用するポートの応答時間は、リモートコピー対象ディスクサブシステムと接続されるポート(イニシエータ/外部ポート26ないしRCUターゲットポート27)において、ホストからの命令に対してポートが応答するまでの平均時間である。なお、イニシエータ/外部ポート26ないしRCUターゲットポート27の単位時間当たり転送量でもよい。
 LDEV応答時間は、ディスクサブシステム(DKC21)が、あるLDEV(例えば、ユーザボリューム25)に対する命令をホスト20から受領したあと、その処理の応答を返信するまでの処理時間を示す。
 MP稼働率は、マイクロプロセッサが単位時間あたり、どれだけ稼動していたかを示す割合である。
 PG稼働率は、複数の記憶媒体(例えば、HDD(Hard Disk Drive))で構成されるパリティグループが単位時間あたり、どれだけ稼動していたかを示す割合である。
 キャッシュ書き込み待ち率は、ディスクサブシステム(DKC21)がホスト20から記憶媒体に書き込むデータを受け取った後、SM23上のキャッシュメモリ領域に保存したが、記憶媒体に未反映なデータ量のキャッシュ領域232の総記憶容量に対する割合である。
 前述のハードウェア性能情報以外に、リモートコピー時に使用するジャーナルボリュームの利用率やHDD稼働率などの指標を用いてもよい。
 次に、システムトレース停止の契機となる条件について説明する。
 まず、(p1)のホスト20に接続されるポートの応答時間、(p2)のリモートコピーIOで使用するポートの応答時間、(p3)のLDEV応答時間、それぞれに設定された性能閾値を、(p1)から(p3)のいずれかが超過した場合を“条件A”とする。
 次に、ハードウェアリソースが過負荷でない場合を条件Bとする。このハードウェアリソースとは、前述の(p4)のMP稼働率、(p5)のPG稼働率、(p6)のキャッシュ書き込み待ち率とし、(p4)から(p6)それぞれに設定された性能閾値に対し(p4)から(p6)の負荷(稼働率や書き込み待ち率)全てが超えていない場合を“条件B”とする。この条件Aと条件Bの両方を満足する場合を、システムトレース停止の契機とする。
 逆に、(p1)から(p3)の応答時間が性能閾値を超過しない場合か、図9のようにハードウェアリソースが過負荷である場合には、システムトレース停止の契機としない。これは、通常のハードウェアリソースに過負荷状態が確認できた場合、その部位がボトルネックとなり、性能問題につながる可能性が高い。そこで、このようにボトルネックの部位が明らかな場合には、障害が発生していると思われる被疑部位を特定し易いため、ダンプ情報の自動採取の対象から除く。これにより不要なダンプ情報の採取を低減でき、問題解析の時間を短縮でき解析効率を向上できる。
 図9の2つのグラフは、それぞれ経過時間92に対するポート応答時間91と、経過時間92に対するハードウェア使用率93を示す。ハードウェア使用率93は、前述の(p4)から(p6)の負荷である。経過時間92がT1時点で、ポート応答時間91が性能閾値911を超え、符号912で示すように閾値超えが発生している。同じく、経過時間92がT1時点で、ハードウェア使用率93が性能閾値931を超え、符号932で示すように閾値超えが発生している。この場合は、前述のようにハードウェアリソースの過負荷(高使用率)により、ポートの応答時間が大きくなっていると直ぐに解明できる。そのため、システムトレースの停止とダンプ情報の採取処理を行わない。
 一方、図10では、経過時間92がT1時点で、ポート応答時間91が閾値911を超え、符号912で示すように閾値超えが発生している。ところが、マイクロプログラム2211で監視しているハードウェアリソース使用率93は、T1時点からT2時点までの監視時間913においては過負荷状態ではなく定常状態(性能閾値931を下回る状態)となっている(閾値超なし933)。そのため、ディスクサブシステム(DKC21)内において何らかの予期せぬ問題が発生している可能性が高いため、システムトレースの停止とダンプ情報の採取処理を行う。
 ポート応答時間91が瞬間的に上昇するような場合、問題が顕在化している時間が短く、システムトレース情報記憶領域2233へのシステムトレース情報(処理結果)の上書きも早い。また、必要以上のダンプ情報の採取を防ぐために、図10に示す一時的な応答時間の上昇のみを監視対象とする。つまり、ポート応答時間91が性能閾値911を超えている時間が予め定めた監視時間913の範囲に収まっている場合のみ、監視対象としダンプ情報の採取を行う。なお、監視時間913は任意の値に設定可能とし、マイクロプログラム2211で予め設定しておくか、SVP29から設定できる構成とする。また、ポート応答時間ではなくLDEV応答時間でも、システムトレース停止とダンプ情報採取の契機を判断できる。
<ダンプ情報の採取動作>
 次に、システムトレース停止からダンプ情報の採取・転送までの一連の動作を図11から図14で説明する。なお、動作の主体をMP部22のMP上で動作するマイクロプログラム2211とするが、MPや他のコントローラなどのハードウェア資源でもよい。
 図11は、問題発生を検知するための監視動作を説明する図である。図12は、システムトレース情報記憶領域へのデータ更新の停止動作を説明する図である。図13は、システムトレース停止指示の発行動作を説明する図である。図14は、ダンプ情報の転送動作を説明する図である。
<動作1>
 まず、図11のようにマイクロプログラム2211が、システムトレース停止の契機となる下記の2つの動作及び状態を監視する。
 (1a)接続されているDKCからのシステムトレース停止指示(符号121)
 (1b)閾値管理するメモリ上の性能データ(符号122)
 なお、他のDKCからのシステムトレース停止指示123は、RCUターゲットポート27に接続される特殊ボリューム24に対して発行される。また、上記のように2つの状態及び動作を監視している状況では、マイクロプログラム2211が、常にシステムトレース情報記憶領域2233へシステムトレース情報を更新している。
<動作2>
 次に、図12のようにマイクロプログラム2211によるDKC内部の監視中に、下記の2つの条件(2a)または(2b)のいずれか1つに合致したときに、マイクロプログラム2211はシステムトレース情報記憶領域2233へのシステムトレース情報の更新を停止する。なお、LM223のダンプ領域2232及びSM23のダンプ領域231へのシステムトレース情報の更新は停止しない。
 (2a)監視対象の性能データが閾値の判定条件に合致した場合
 (2b)他のDKCが発行したシステムトレース停止信号を受信した場合
 (2a)の条件を満足する場合は、前述の(p1)及び(p2)のポート応答時間や(p3)のLDEV応答時間が設定した性能閾値を超過し、(p4)のMP稼働率、(p5)のPG稼働率、(p6)のキャッシュ書き込み待ち率の全てが性能閾値を超過していない場合である。具体的な判定処理については、図15で詳述する。
<動作3>
 次に、前述の(2a)の条件に合致してシステムトレースが停止した場合、マイクロプログラム2211は、DKC21に接続されるリモートコピー対象のDKCや外部ストレージが存在するかを確認する。DKC21に接続されるリモートコピー対象のDKCや外部ストレージが存在する場合、マイクロプログラム2211は、図13のようにファイバチャネルプロトコルのリモートコピー接続パスや外部ストレージ接続パス経由で、接続相手のDKCに対しシステムトレース停止信号を発行する。
<動作4>
 次に、図14のようにマイクロプログラム2211は、LM223上のダンプ領域2232とシステムトレース情報記憶領域2233に格納されているシステムトレース情報(ダンプ情報)と、SM23のダンプ領域231に格納されているダンプ情報とを採取して、採取したダンプ情報をSVP29へ転送する。SVP29は、受信したダンプ情報をダンプ情報291として内部のボリュームに保存する。なお、SVP29は、Windows(登録商標)などのOSで動作するPC(Personal Computer)であり、“XYZ.log”などの名称でファイルとしてダンプ情報が保存される。なお、このダンプ情報291には、ホスト20でユーザがDKC21に操作した結果である操作ログも含まれる。
 また、SVP29に転送されたダンプ情報291を更に保守センタ1411に送り、問題の解析を行うこともできる。また、DKC21に接続されている遠隔地に点在する他のDKC1401からSVP1409に転送されたダンプ情報も保守センタ1411に送り、2つのダンプ情報で総合的な問題解析を実施し、解決策をリモートで各DKCに講じることも可能である。
 <ダンプ情報の採取処理フロー1>
 図15は、ダンプ情報の採取処理を説明する図である。次に、システムトレース停止からダンプ情報の採取・転送までの一連の処理フローを図15で説明する。なお、動作の主体をMP部22のMP上で動作するマイクロプログラム2211とするが、MPや他のコントローラなどのハードウェア資源でもよい。
 最初に、S1501で、マイクロプログラム2211は、他のDKC(例えば、図3の副DKC31)からのシステムトレース停止指示があるかを判断する。指示があれば、マイクロプログラム2211は、S1508を実行し、無い場合はS1502を実行する。
 次に、S1502で、マイクロプログラム2211は、DKC21のポート応答時間またはLDEV応答時間が性能閾値を超えているかを判断する。両方とも超えていない場合、マイクロプログラム2211は、再びS1501を実行し、超えている場合はS1503を実行する。このS1502の処理が、前述の条件Aを満足するかの判断に相当する。
 S1503で、マイクロプログラム2211は、PG稼働率が性能閾値を超えているかを判断する。超えている場合、マイクロプログラム2211は、再びS1501を実行し、超えていない場合はS1504を実行する。
 S1504で、マイクロプログラム2211は、キャッシュ書き込み待ち率が性能閾値を超えているかを判断する。超えている場合、マイクロプログラム2211は、再びS1501を実行し、超えていない場合はS1505を実行する。
 S1505で、マイクロプログラム2211は、MP稼働率が性能閾値を超えているかを判断する。超えている場合、マイクロプログラム2211は、再びS1501を実行し、超えていない場合はS1506を実行する。S1503からS1505までの処理が、前述の条件Bを満足するかの判断に相当する。
 S1506で、マイクロプログラム2211は、DKC21に接続している他のDKCが存在するかを判断する。存在する場合、マイクロプログラム2211は、S1507を実行し、存在しない場合はS1508を実行する。
 S1507で、マイクロプログラム2211は、他のDKCへのシステムトレース停止指示を発行する。この処理により、他のDKCでのシステムトレースの停止とダンプ情報の採取が可能となる。
 S1508で、マイクロプログラム2211は、DKC21でのシステムトレースを停止する。
 S1509で、マイクロプログラム2211は、SVP29へトレース停止報告を実行する。
 S1510で、マイクロプログラム2211は、DKC21のダンプ情報の採取を行い、採取したダンプ情報をSVP29へ転送する。
 S1511で、マイクロプログラム2211は、採取したダンプ情報のSVP29への転送完了後に、システムトレースを再開する。システムトレースの再開後、マイクロプログラム2211は、処理をS1501に戻す。
 図16は、SVPへのダンプ情報の転送処理を説明する図である。次に、SVP29での処理フローを図16で説明する。処理の主体をSVP29のCPU(図示せず)とする。
 S1601で、CPUは、DKC21からのシステムトレース停止の報告があったかを判断する。報告が無い場合、CPUは、再びS1601の処理を実行しシステムトレース停止の報告を待つ。報告があった場合、CPUは、S1602を実行する。
 S1602で、CPUは、DKC21からダンプ情報を収集する。
 S1603で、CPUは、収集したダンプ情報を内蔵HDDへ格納する。内蔵HDDへの格納後に、CPUは処理をS1601に戻す。
 以上の説明したように、本発明では問題解析に必要なダンプ情報を的確に採取できる。また、複数のDKCから問題発生時点のダンプ情報も的確かつ同時に採取できる。そのため、問題解析の精度を向上でき、保守時間の短縮が図れる。
<実施例2>
<ダンプ情報の採取契機2>
 次に、ディスクサブシステムの稼働状況によりダンプ情報を採取する方法を説明する。図17は、実施例2でのディスクサブシステム稼働状況による問題発生の検知を説明する図である。
 実施例2では、ディスクサブシステムの平均稼働率との偏差が設定値を超えたときを契機にシステムトレースを停止しダンプ情報を採取する。これは、ユーザの業務形態により、一日中のサブディスクシステムに対する業務量には周期性があることが多い。そのため、ディスクサブシステムに対する入出力が一定のパターンとなる可能性が高い。
 そこで、稼動状況をある一定期間監視し、一日中のポートの平均応答時間の指標で平均稼働率の性能閾値をディスクサブシステム内で作成する。そして、実際のポート応答時間が設定した割合ないしは時間分を超過した場合にシステムトレースを停止しダンプ情報を採取する。
 ダンプ情報の採取契機の条件として、平均稼働率の性能閾値からの乖離の度合い(割合ないし時間)があるが、その度合いは任意の値に設定可能とする。同じく、性能閾値を超過した時間も任意の値に設定可能とする。また、必要以上のダンプ情報の採取を防ぐため、前述のダンプ情報の採取契機1と同様に、一時的なポートないしはLDEV応答時間の上昇のみを監視対象とする。
 具体的には、図17のポート応答時間171と時刻172とで、一日全体の平均応答時間の指標である平均稼働率の性能閾値1711を設定する。なお、ポート応答時間ではなくLDEV応答時間で平均稼働率の性能閾値1711を設定できる。そして、実際のポート応答時間からポート応答時間曲線1712を作成し、性能閾値1711と比較する。
 性能閾値1711に対し超過しているポート応答時間曲線1712の超過割合(R1)ないし超過時間(T5)が予め設定した基準値1713を超え(基準値超発生1714、条件C)、基準値超過の継続時間(T3からT4まで)が予め設定した時間の範囲である時間閾値以内の場合(条件D)にダンプ情報の採取契機とする。
<ダンプ情報の採取処理フロー2>
 図18は、ダンプ情報の採取処理を説明する図である。次に、実施例2でのシステムトレース停止からダンプ情報の採取・転送までの一連の処理フローを図18で説明する。なお、動作の主体をMP部22のMP上で動作するマイクロプログラム2211とするが、MPや他のコントローラなどのハードウェア資源でもよい。
 S1801で、マイクロプログラム2211は、LM223上の性能データ2231をチェックする。
 S1802で、マイクロプログラム2211は、実際のポート応答時間曲線1712と性能閾値1711を比較し、基準値から乖離はあるかを判断する。つまり、前述のように条件C及び条件Dを満足するシステム状態であるかを判断する。両方の条件を満足しない場合(S1802でNo)、マイクロプログラム2211は、S1809を実行する。両方の条件を満足する場合(S1802でYes)、マイクロプログラム2211は、S1803を実行する。
 S1803からS1808までの処理は、前述のS1506からS1511までの処理と同じである。また、S1809の処理は、S1501の処理と同じである。
 以上のように、実施例2でも実施例1と同様に、1日のポート応答時間ないしLDEV応答時間を計測して性能閾値1711を求め、実際のポート応答時間曲線1712との乖離度によりダンプ採取の契機を判断し、問題解析に必要なダンプ情報を的確に採取できる。また、複数のDKCから問題発生時点のダンプ情報も的確かつ同時に採取できる。そのため、問題解析の精度の向上と保守時間の短縮が図れる。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。  また、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。
 各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置いてもよい。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
 1、2 DKC
 10 マイクロプログラム
 11 システムトレース情報記憶領域
 20 ホスト
 21 DKC
 22 マイクロプロセッサ
 23 共有メモリ
 24 特殊ボリューム
 29 SVP
 221 リアルタイムOS
 222 SVP通信プログラム
 223 ローカルメモリ
 231 ダンプ領域
 291 ダンプ情報
 2211 マイクロプログラム
 2231 性能データ
 2232 ダンプ領域
 2233 システムトレース情報記憶領域

 

Claims (14)

  1.  複数のディスクサブシステムを含むストレージシステムであって、
     前記ディスクサブシステムは、
     前記ディスクサブシステムを制御する制御プログラムを実行するプロセッサと、
     前記ディスクサブシステムのハードウェアリソースの性能データを格納する性能データ領域と前記制御プログラムの実行結果である第1システムトレース情報を格納する第1システムトレース情報記憶領域を有する第1メモリと、
     ホスト計算機から前記ディスクサブシステムへのデータを一時的に格納するキャッシュ領域と、前記第1システムトレース情報以外の第2システムトレース情報を格納する第2システムトレース情報記憶領域とを有する第2メモリと、
     前記ディスクサブシステムと異なるディスクサブシステムと接続する第1ポートと、
     前記ホスト計算機と接続する第2ポートと、
     前記ホスト計算機から第2ポートを経由して受信したデータを格納する複数の記憶媒体からパリティグループを1つ以上構成する第1ボリュームと、
     を備え、
     前記ハードウェアリソースの性能データが予め定められた性能閾値を超えた場合、前記複数のディスクサブシステムのプロセッサそれぞれが、前記複数のディスクサブシステムそれぞれの前記第1システムトレース情報を取得する
     ことを特徴とするストレージシステム。
  2.  請求項1記載のストレージシステムであって、
     前記プロセッサが、前記他のディスクサブシステムからのシステムトレース停止命令の受信により前記第1システムトレース情報を取得する
     ことを特徴とするストレージシステム。
  3.  請求項1記載のストレージシステムであって、
     前記プロセッサは、前記システムトレース情報記憶領域への第1システムトレース情報の格納を停止して、前記システムトレース情報記憶領域に格納された第1システムトレース情報を取得する
     ことを特徴とするストレージシステム。
  4.  請求項3記載のストレージシステムであって、
     前記ディスクサブシステムは、
     更に他のディスクサブシステムとのコマンドを格納する複数の記憶媒体から構成された第2ボリュームを備え、
     前記プロセッサが、
     前記他のディスクサブシステムに、第2ボリュームと第1ポート経由でシステムトレース停止命令を送信し、
     前記他のディスクサブシステムでのシステムトレース情報記憶領域への第1システムトレース情報の格納を停止させ、前記システムトレース情報記憶領域に格納された第1システムトレース情報を取得させる
     ことを特徴とするストレージシステム。
  5.  請求項1記載のストレージシステムであって、
     前記ハードウェアリソースの性能データは、
     (p1)前記ホスト計算機からの入出力命令に対する前記第1ポートの応答時間
     (p2)前記ホスト計算機からの入出力命令に対する前記第2ポートの応答時間
     (p3)前記記憶媒体への入出力命令が完了するまでの処理時間である論理デバイス応答時間
     (p4)前記プロセッサの単位時間あたりの稼動割合であるプロセッサ稼働率
     (p5)前記パリティグループが単位時間あたり稼動割合であるパリティグループ稼働率
     (p6)前記キャッシュ領域に保存中で前記記憶媒体に未反映なデータ量のキャッシュ領域の総記憶容量に対する割合であるキャッシュ書き込み待ち率
     (p7)1日の時刻毎の前記第1ポートの平均応答時間
     (p8)1日の時刻毎の前記第2ポートの平均応答時間
     (p9)1日の時刻毎の前記論理デバイスの平均応答時間
    のいずれか1つ以上である
     ことを特徴とするストレージシステム。
  6.  請求項5記載のストレージシステムであって、
     前記ディスクサブシステムに、前記性能データに対し性能閾値が予め設定されている
     ことを特徴とするストレージシステム。
  7.  請求項6記載のストレージシステムであって、
     前記(p1)から(p3)の性能データのいずれかが前記性能閾値を超え、超過時間が予め設定された時間範囲内で、かつ前記(p4)から(p6)の性能データ全てが前記性能閾値以下である場合に、前記プロセッサは前記第1システムトレース情報を取得する
     ことを特徴とするストレージシステム。
  8.  請求項6記載のストレージシステムであって、
     前記(p7)から(p9)の前記性能閾値に対する実際の応答時間の乖離度が予め設定された値を超え、超過時間が予め設定された時間範囲内の場合に、前記プロセッサは前記第1システムトレース情報を取得する
     ことを特徴とするストレージシステム。
  9.  請求項1記載のストレージシステムであって、
     前記ディスクサブシステムの稼働状況を監視する保守端末を更に備え、
     前記保守端末は、
     コントローラと、
     情報を入力する入力装置と、
     情報を出力する出力装置と、
     情報を記録する1つ以上の記憶デバイスと、
     他の外部システムとの間で情報の送受信を行う通信ポートとを備える
     ことを特徴とするストレージシステム。
  10.  請求項9記載のストレージシステムであって、
     前記プロセッサは、前記取得したシステムトレース情報を前記保守端末に送信する
     ことを特徴とするストレージシステム。
  11.  請求項10記載のストレージシステムであって、
     前記保守端末は、前記通信ポートで外部システムと接続し、
     前記コントローラが、前記受信したシステムトレース情報を前記外部システムに送信する
     ことを特徴とするストレージシステム。
  12.  請求項9記載のストレージシステムであって、
     前記ハードウェアリソースの性能データが予め定められた性能閾値を超えた場合、前記複数のディスクサブシステムのプロセッサそれぞれが、前記複数のディスクサブシステム内部の前記第2システムトレース情報を取得し、前記保守端末へ送信する
     ことを特徴とするストレージシステム。
  13.  請求項1記載のストレージシステムであって、
     前記第1ポートはファイバチャネルプロトコルでの通信を行うポートである
     ことを特徴とするストレージシステム。
  14.  複数のディスクサブシステムを含むストレージシステムであって、
     前記ディスクサブシステムは、
     前記ディスクサブシステムを制御する制御プログラムを実行するプロセッサと、
     前記ディスクサブシステムのハードウェアリソースの性能データを格納する性能データ領域と、前記制御プログラムの実行結果である第1システムトレース情報を格納する第1システムトレース情報記憶領域を有し前記プロセッサに接続される第1メモリと、
     ホスト計算機から前記ディスクサブシステムへのデータを一時的に格納するキャッシュ領域と、前記第1システムトレース情報以外の第2システムトレース情報を格納する第2システムトレース情報記憶領域とを有する第2メモリと、
     前記ディスクサブシステムと異なる第2ディスクサブシステムと接続するファイバチャネルプロトコルの第1ポートと、
     前記ホスト計算機と接続する第2ポートと、
     前記ホスト計算機から第2ポートを経由して受信したデータを格納する複数の記憶媒体からパリティグループを1つ以上構成する第1ボリュームと、
     前記第2ディスクサブシステムとのコマンドを格納する複数の記憶媒体から構成された第2ボリュームと、
     前記ディスクサブシステムの稼働状況を監視する保守端末と
    を備え、
     前記保守端末は、
     前記保守端末全体を制御するコントローラと、
     情報を入力する入力装置と、
     情報を出力する出力装置と、
     情報を記録する1つ以上の記憶デバイスと、
     外部システムとの間で情報の送受信を行う通信ポートと
    を備え、
      前記ハードウェアリソースの性能データは、
     (p1)前記ホスト計算機からの入出力命令に対する前記第1ポートの応答時間
     (p2)前記ホスト計算機からの入出力命令に対する前記第2ポートの応答時間
     (p3)前記記憶媒体への入出力命令が完了するまでの処理時間である論理デバイス応答時間
     (p4)前記プロセッサの単位時間あたりの稼動割合であるプロセッサ稼働率
     (p5)前記パリティグループが単位時間あたり稼動割合であるパリティグループ稼働率
     (p6)前記キャッシュ領域に保存中で前記記憶媒体に未反映なデータ量のキャッシュ領域の総記憶容量に対する割合であるキャッシュ書き込み待ち率
     (p7)1日の時刻毎の前記第1ポートの平均応答時間
     (p8)1日の時刻毎の前記第2ポートの平均応答時間
     (p9)1日の時刻毎の前記論理デバイスの平均応答時間
    であり、前記(p1)から(p9)の性能データそれぞれに対する性能閾値が設定され、
     前記(p1)から(p3)の性能データのいずれかが前記性能閾値を超え、超過時間が予め設定された時間範囲内で、かつ前記(p4)から(p6)の性能データ全てが前記性能閾値以下である場合、または、
     前記(p7)から(p9)の前記性能閾値に対する実際の応答時間の乖離度が予め設定された値を超え、超過時間が予め設定された時間範囲内の場合、
     前記プロセッサは、
     接続しているディスクサブシステムにシステムトレース停止指示を発行し、
     前記第1システムトレース情報の前記第1システムトレース情報記憶領域への格納を停止し、
     前記保守端末へのシステムトレース停止報告を送信し、
     前記第1システムトレース情報及び第2システムトレース情報を前記保守端末へ送信し、
     前記送信完了後に、前記第1システムトレース情報記憶領域への前記第1システムトレース情報の格納を再開し、
     前記保守端末のコントローラは、
     受信した第1システムトレース情報及び第2システムトレース情報を前記記憶デバイスへの格納し、前記通信ポート経由で外部システムへの第1システムトレース情報及び第2システムトレース情報を転送し、
     前記入力装置は前記性能閾値及び時間範囲の入力を受け付け、前記出力装置で前記性能閾値、前記時間範囲及び前記性能データを出力する
     ことを特徴とするストレージシステム。

     
PCT/JP2013/051834 2013-01-29 2013-01-29 ストレージシステム WO2014118874A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2013/051834 WO2014118874A1 (ja) 2013-01-29 2013-01-29 ストレージシステム
US14/004,715 US8886888B2 (en) 2013-01-29 2013-01-29 Storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/051834 WO2014118874A1 (ja) 2013-01-29 2013-01-29 ストレージシステム

Publications (1)

Publication Number Publication Date
WO2014118874A1 true WO2014118874A1 (ja) 2014-08-07

Family

ID=51224320

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/051834 WO2014118874A1 (ja) 2013-01-29 2013-01-29 ストレージシステム

Country Status (2)

Country Link
US (1) US8886888B2 (ja)
WO (1) WO2014118874A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111067A1 (en) * 2014-01-24 2015-07-30 Hewlett-Packard Development Company, L.P. Dynamically patching kernels using storage data structures
WO2016153377A1 (en) * 2015-03-26 2016-09-29 Emc Corporation Smart logging of trace data for storage systems
US10002040B2 (en) * 2016-01-04 2018-06-19 International Business Machines Corporation Detection and automatic transfer of standalone system dumps

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286709A (ja) * 2006-04-13 2007-11-01 Hitachi Ltd ストレージシステム及びストレージシステムのデータ移行方法
JP2008108120A (ja) * 2006-10-26 2008-05-08 Hitachi Ltd エージェントを使用して性能を監視する計算機システム及びその方法
US20110106978A1 (en) * 2009-11-04 2011-05-05 Hitachi, Ltd. Storage system and operating method of storage system
JP2012247937A (ja) * 2011-05-26 2012-12-13 Fujitsu Ltd 情報処理装置、ログ記憶制御プログラムおよびログ記憶制御方法
WO2012169027A1 (ja) * 2011-06-08 2012-12-13 株式会社日立製作所 計算機システム及びストレージシステム管理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301640A (ja) * 2004-04-12 2005-10-27 Hitachi Ltd スイッチ装置、記憶制御システム及びトレースデータ取得方法
US8141051B2 (en) * 2006-12-29 2012-03-20 Intel Corporation Methods and apparatus to collect runtime trace data associated with application performance
US7882393B2 (en) 2007-03-28 2011-02-01 International Business Machines Corporation In-band problem log data collection between a host system and a storage system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286709A (ja) * 2006-04-13 2007-11-01 Hitachi Ltd ストレージシステム及びストレージシステムのデータ移行方法
JP2008108120A (ja) * 2006-10-26 2008-05-08 Hitachi Ltd エージェントを使用して性能を監視する計算機システム及びその方法
US20110106978A1 (en) * 2009-11-04 2011-05-05 Hitachi, Ltd. Storage system and operating method of storage system
JP2012247937A (ja) * 2011-05-26 2012-12-13 Fujitsu Ltd 情報処理装置、ログ記憶制御プログラムおよびログ記憶制御方法
WO2012169027A1 (ja) * 2011-06-08 2012-12-13 株式会社日立製作所 計算機システム及びストレージシステム管理方法

Also Published As

Publication number Publication date
US20140215151A1 (en) 2014-07-31
US8886888B2 (en) 2014-11-11

Similar Documents

Publication Publication Date Title
US7882393B2 (en) In-band problem log data collection between a host system and a storage system
US10884791B2 (en) Migrating jobs from a source server from which data is migrated to a target server to which the data is migrated
US9563463B2 (en) Computer system and control method therefor
US7711908B2 (en) Virtual storage system for virtualizing a plurality of storage systems logically into a single storage resource provided to a host computer
US20150127855A1 (en) Tiered storage device providing for migration of prioritized application specific data responsive to frequently referenced data
US20070124550A1 (en) Storage system having a plurality of interfaces
US10108517B1 (en) Techniques for data storage systems using virtualized environments
JP2007072571A (ja) 計算機システム及び管理計算機ならびにアクセスパス管理方法
US7401196B2 (en) Storage system and storage control method for access exclusion control of each storage area unit comprising storage area of storage device
US20120047327A1 (en) Disk array device and control method for the same
US20160371121A1 (en) Computer system and load leveling program
US20170220275A1 (en) Computer system and management program
US7003617B2 (en) System and method for managing target resets
JP2015114873A (ja) 情報処理装置および監視方法
US20110185226A1 (en) Storage system and control methods for the same
US20160364268A1 (en) Computer system, management computer, and management method
WO2014118874A1 (ja) ストレージシステム
WO2017056219A1 (ja) ストレージ装置およびストレージ装置の制御方法
US20140156815A1 (en) Storage system and method for managing configuration information thereof
US8732531B2 (en) Information processing apparatus, method of controlling information processing apparatus, and control program
US20140068214A1 (en) Information processing apparatus and copy control method
US9633066B1 (en) Taking a consistent cut during replication for storage across multiple nodes without blocking input/output
US20160085836A1 (en) System for achieving non-interruptive data reconstruction
US20200026596A1 (en) I/o recovery and diagnostics
US20200026631A1 (en) Dynamic i/o monitoring and tuning

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 14004715

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13874168

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13874168

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP