WO2017068623A1 - 管理計算機及び閾値設定方法 - Google Patents

管理計算機及び閾値設定方法 Download PDF

Info

Publication number
WO2017068623A1
WO2017068623A1 PCT/JP2015/079439 JP2015079439W WO2017068623A1 WO 2017068623 A1 WO2017068623 A1 WO 2017068623A1 JP 2015079439 W JP2015079439 W JP 2015079439W WO 2017068623 A1 WO2017068623 A1 WO 2017068623A1
Authority
WO
WIPO (PCT)
Prior art keywords
performance
frequency distribution
threshold
resource
module
Prior art date
Application number
PCT/JP2015/079439
Other languages
English (en)
French (fr)
Inventor
瑛利沙 野呂
利明 松尾
雄太 中戸川
伸圭 坂井
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2015/079439 priority Critical patent/WO2017068623A1/ja
Publication of WO2017068623A1 publication Critical patent/WO2017068623A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers

Definitions

  • the present invention relates to a management computer and a threshold setting method.
  • the system management software in the SAN environment may periodically acquire the performance index of the component on the storage side, and perform an operation of notifying the system administrator when the value of the performance index is worse than a preset threshold value. Many.
  • Patent Document 1 discloses a technique for the above operation. Patent Document 1 describes that “a threshold value for performance monitoring is set in advance for a management target device using management software, and a performance failure event is detected when the performance acquisition value exceeds the threshold value”. ing.
  • the set threshold value is too high, even if the performance index is an abnormal value that should be detected, the performance index does not reach the threshold value, so that it cannot be detected as a performance failure event (hereinafter, This state is called “undetected” state).
  • the set threshold is too low, the performance index reaches the threshold even though the performance index is not a value that should be detected as an abnormal value, so that it is detected as a performance failure event. (Hereinafter, this state is referred to as an “overdetection” state). As described above, the undetected state and the overdetected state are in a trade-off relationship.
  • Patent Document 1 discloses a technique for preventing a set threshold value from being set to a value biased to either an undetected state or an overdetected state. Patent Document 1 describes that “a threshold recalculation process is executed based on an event hit situation to correct a threshold set higher or lower than the original performance of the device”.
  • Patent Document 1 only discloses a technique for correcting the threshold value to a value that is not biased to either the undetected state or the overdetected state. Therefore, in the technique of Patent Literature 1, the system administrator cannot set the threshold value of the performance index at a desired position between the overdetected state and the undetected state.
  • the present invention provides a technique capable of setting the threshold value of the performance index at a desired position between the overdetected state and the undetected state.
  • the present application includes a plurality of means for solving the above-described problems.
  • a management computer that manages a computer system including a host and a storage connected to the host via a network is provided.
  • the management computer has an input module that accepts an input of a detection sensitivity index that represents a ratio of the number of overdetections to the number of undetections, a first frequency distribution of performance values of resources on the storage side, and a performance problem occurs in the host
  • a detection sensitivity index that represents a ratio of the number of overdetections to the number of undetections, a first frequency distribution of performance values of resources on the storage side, and a performance problem occurs in the host
  • a frequency distribution creating module for creating a second frequency distribution of the performance value of the resource on the storage side in a time zone, and the detection sensitivity using the first frequency distribution and the second frequency distribution
  • a threshold value calculation module for calculating a threshold value of the performance value of the resource satisfying the index.
  • a threshold setting method for setting a threshold of a resource on the storage side includes an input step of accepting an input of a detection sensitivity index representing a ratio of the number of overdetections and an undetected number by an input module, and a first of the performance values of the resources on the storage side by a frequency distribution creation module.
  • the threshold value of the performance index can be set to a desired position between the overdetected state and the undetected state.
  • FIG. 1 is a block diagram showing an overall outline of an embodiment of a computer system.
  • the computer system includes a storage device (sometimes simply referred to as “storage”) 100, a business server (sometimes simply referred to as “host”) 120, and first and second performance information. Collection servers 130 and 140 and a performance management server 150 are provided.
  • the storage apparatus 100 and the business server 120 are connected via a network. Specifically, the storage apparatus 100 and the business server 120 are connected via a SAN (Storage Area Network) switch 160.
  • a storage system 180 is configured by the storage apparatus 100, the business server 120, and the SAN switch 160.
  • a plurality of business servers 120 may exist.
  • Each server 120, 130, 140, 150 is constituted by a computer such as a computer or a workstation.
  • the computer may include a central processing unit, an auxiliary storage device, and a main storage device.
  • the central processing unit is composed of a processor such as a CPU (Central Processing Unit).
  • the auxiliary storage device is a hard disk
  • the main storage device is a memory.
  • the hard disk is used to store various software and various information.
  • a semiconductor memory such as a flash memory or an optical disk device may be applied.
  • the calculator may include a display unit and an input unit.
  • the input unit is a keyboard, a pointing device (such as a mouse), or the like.
  • the display unit is a display, a printer, or the like.
  • the components of each server 120, 130, 140, 150 show only main components (for example, CPU, memory, etc.), and other components are omitted.
  • the first and second performance information collection servers 130 and 140 and the performance management server 150 are connected to the storage apparatus 100, the business server 120, and the SAN switch 160 via a LAN (Local Area Network) 170.
  • LAN Local Area Network
  • the first and second performance information collection servers 130 and 140 and the performance management server 150 may be connected to each business server 120 via the LAN 170.
  • the storage device 100 is a data storage device that provides a data storage area to the business server 120.
  • the storage apparatus 100 includes a CPU 101, physical disks 106, 107, 108, and 109 for storing data, ports 110, 111, and 112 for connecting to the business server 120 via the SAN switch 160, and the business server 120. Between the caches 104 and 105 for temporarily storing data exchanged between them and the ports 110, 111 and 112 and the physical disks 106, 107, 108 and 109. And controllers 102 and 103 to perform.
  • the business server 120 is a computer that provides business functions of the business system. For example, the business server 120 receives a file I / O request from a client computer (not shown) connected to the business server 120, and realizes access to the storage apparatus 100 based on the received file I / O request.
  • the business server 120 includes a CPU 121, a memory 122, and ports 123 and 124 for connecting to the storage apparatus 100 via the SAN switch 170.
  • business software 125, an OS (Operating System) 126, and a host performance information collection module 127 operate. These software are loaded into the memory 122 and executed by the CPU 121. These software may be stored in the hard disk and copied to the memory 122 as necessary.
  • the host performance information collection module 127 collects configuration information and performance information of the business server 120 and transmits the collected configuration information and performance information to the performance management server 150.
  • the first performance information collection server 130 includes a CPU 131 and a memory 132.
  • an OS (not shown) and a storage performance information collection module 133 operate. These software are loaded into the memory 132 and executed by the CPU 131. These software may be stored in the hard disk and copied to the memory 132 as necessary.
  • the storage performance information collection module 133 collects configuration information and performance information of the storage apparatus 100 and transmits the collected configuration information and performance information to the performance management server 150.
  • the second performance information collection server 140 includes a CPU 141 and a memory 142.
  • an OS (not shown) and a SAN switch performance information collection module 143 operate. These software are loaded into the memory 142 and executed by the CPU 141. These software may be stored in the hard disk and copied to the memory 142 as necessary.
  • the SAN switch performance information collection module 143 collects configuration information and performance information of the SAN switch 160 and transmits the collected configuration information and performance information to the performance management server 150.
  • the performance management server 150 is a management computer that collects configuration information and performance information of the storage system 180 and monitors the components of the storage system 180.
  • the performance management server 150 includes a CPU 151 and a memory 152.
  • an OS (not shown) and a storage system performance management module 153 operate. These software are loaded into the memory 152 and executed by the CPU 151.
  • the storage system performance management module 153 monitors the storage system 180 and acquires a performance value indicating the processing performance of each component device (the storage apparatus 100, the business server 120, and the SAN switch 160).
  • the storage system performance management module 153 compares a preset threshold value with the acquired performance value, and detects an abnormality in the performance of each component device.
  • FIG. 2 is a diagram showing a detailed internal configuration example of the storage system, and is a diagram showing the hardware configuration of the storage system 180 of FIG. 1 in more detail.
  • the storage system includes a storage device 200, a business server A220, a business server B221, a SAN switch A240, and a SAN switch B250.
  • business software A222 and business software B223 operate.
  • the business software A 222 uses the volume A 225
  • the business software B 223 uses the volume B 226.
  • the business server A220 is connected to the SAN switch A240 and the SAN switch B250 via the port A228 to the port B229.
  • business software C224 operates.
  • the business software C224 uses the volume C227.
  • the business server B 221 is connected to the SAN switch B 250 via the port C230.
  • Volume A225 to volume C227 are managed by an OS (not shown) as an area for storing files in an external storage device (here, storage device 200).
  • Volume A225 to volume C227 are allocated to logical volume A201 to logical volume D204 of the storage apparatus 200, respectively.
  • the logical volume A201 to logical volume D204 are assigned to either the parity group A205 or the parity group B206, respectively.
  • the logical volume A201 and the logical volume B202 are assigned to the parity group A205
  • the logical volume C203 and the logical volume D204 are assigned to the parity group B206.
  • Physical disk A207 to physical disk C209 are assigned to parity group A205
  • physical disk D210 to physical disk F212 are assigned to parity group B206.
  • the “storage side resource” is assumed to be a component in the range of a dotted line 280 in FIG. Therefore, a resource within the range of the dotted line 280 is a threshold setting target.
  • the “storage side resource” is not limited to this example. For example, an arbitrary range on the back end side of the business server A 220 and the business server B 221 may be handled as a resource on the storage side.
  • FIG. 3 is a diagram showing a detailed internal configuration example of the storage system performance management module 153 of FIG.
  • the storage system performance management module 300 includes a GUI display module 301, a user input module 302, a user notification module 303, a threshold calculation module 304, a frequency distribution creation module 305, and a performance determination module 306.
  • the storage system performance management module 300 includes a resource relation table 310, a resource performance table 320, and a setting information table 330.
  • the GUI display module 301 is a module that displays a GUI (Graphical User Interface) displayed on a display unit (for example, a display) of the performance management server 150.
  • a GUI Graphic User Interface
  • the GUI display module 301 displays a screen related to the setting information table 330, a screen related to the determination result of the performance of the resource on the storage side, and the like on the display.
  • the user input module 302 receives the input information (for example, input information related to the setting information table 330) received via the GUI display module 301 and sets the input information in the setting information table 330.
  • input information for example, input information related to the setting information table 330
  • the user notification module 303 receives the determination result of the storage-side resource performance from the performance determination module 306 and notifies the system administrator via the GUI display module 301.
  • the notification means is not limited to display, but may be other notification methods such as e-mail notification.
  • the frequency distribution creation module 305 creates a frequency distribution used for threshold setting processing for resources on the storage side. Specifically, the frequency distribution creation module 305 creates a first frequency distribution and a second frequency distribution using the resource association table 310, the resource performance table 320, and the setting information table 330.
  • the first frequency distribution is a frequency distribution of performance values in all time zones in a collection of performance values of storage-side resources collected in the past.
  • the second frequency distribution is a collection of performance values of storage-side resources collected in the past. Performance values in the time zone in which a performance problem occurs on the host side (for example, business server A220, business server B221). Frequency distribution.
  • the first frequency distribution and the second frequency distribution target a set of performance values of all time zones collected in the past, but some of the time zones collected in the past A set of performance values may be targeted.
  • the threshold value calculation module 304 calculates a threshold value related to resources on the storage side of the storage system 180.
  • the threshold calculation module 304 sets the calculated threshold in the setting information table 330.
  • the threshold value set in the setting information table 330 is used to determine whether or not a performance problem has occurred in the storage-side resource.
  • the threshold calculation module 304 uses the first frequency distribution and the second frequency distribution to calculate the threshold value of the resource performance value on the storage side. More specifically, the threshold calculation module 304 calculates a threshold from one of two methods. In the first method, the threshold calculation module 304 uses the first frequency distribution and the second frequency distribution to calculate a threshold that satisfies the detection sensitivity index for each resource on the storage side. The threshold calculation module 304 searches the threshold position satisfying the detection sensitivity index designated by the system administrator by changing the threshold position on the first frequency distribution and the second frequency distribution. Details of the “detection sensitivity index” will be described later. Note that a known method such as a binary search method can be used for searching for the threshold.
  • the threshold value calculation module 304 uses the first frequency distribution and the second frequency distribution to calculate a threshold value for which the number of warnings is smaller than the preliminary warning upper limit number for each resource on the storage side.
  • the threshold calculation module 304 varies the threshold position on the first frequency distribution and the second frequency distribution, and searches for a threshold position that has a warning number smaller than the preliminary warning upper limit number specified by the system administrator. To do. Details of the “preliminary warning upper limit number” will be described later.
  • the performance determination module 306 determines whether a performance problem has occurred in the storage-side resource. Specifically, the performance determination module 306 compares the performance value of the resource whose performance is to be determined in the resource performance table 320 with the threshold value in the setting information table 330, so that a performance problem has occurred in the resource. It is determined whether or not. The performance determination module 306 outputs the determination result to the user notification module 303.
  • the performance information collection module 340 corresponds to the host performance information collection module 127, storage performance information collection module 133, and SAN switch performance information collection module 143 of FIG.
  • the performance information collection module 340 includes a configuration information acquisition module 341 and a performance information acquisition module 342.
  • the configuration information acquisition module 341 acquires configuration information from the storage system configuration device software 350.
  • the configuration information here is the configuration information of the resources of the storage system shown in FIG.
  • the performance information acquisition module 342 acquires performance information from the storage system component software 350.
  • the performance information here is the performance information of the resources of the storage system shown in FIG.
  • the storage system configuration device software 350 is a module incorporated in a storage system configuration device (business server, storage device, SAN switch), for example.
  • the storage system component software 350 is a program module executed in the storage system component or a part of their hardware.
  • the storage system configuration device software 350 may be incorporated in an OS of a storage system configuration device (business server, storage device, etc.).
  • the storage system configuration device software 350 includes a configuration information acquisition module 351 and a performance information acquisition module 352, and acquires configuration information and performance information of each configuration device.
  • the resource relation table 310, the setting information table 330, and the resource performance table 320 used in this embodiment will be described.
  • the various information will be described using a “table” structure in the following description, but it is not necessarily expressed by a data structure using a table, and may be expressed by another data structure.
  • the resource relation table 310 is information indicating a relation between a plurality of resources between the business server (business server A220, business server B221) and the storage apparatus 200.
  • the resource association table 310 can be used, for example, when creating the second frequency distribution. Assume that a second frequency distribution is created for a certain resource A. Since the relation between the resource A and the business server volume (volume A225 to volume C227) at a certain time can be known by using the resource relation table 310, the resource A at that time is based on the performance value of the business server at that time. It is possible to determine whether the performance value is reflected in the second frequency distribution.
  • the resource association table 310 can be used as information indicating the dependency relationship between resources. When a problem occurs in the performance of one resource, the performance problem may occur on the host side (business server) under the influence of the performance problem. Since the resource relation table 310 represents relation information between resources at a certain time, it is used to determine whether a performance problem of a certain resource is a cause when a performance problem occurs on the host side. Can do. As an example, the resource association table 310 can be used for root cause analysis (RCA: Root cause analysis). The RCA will be described later.
  • RCA Root cause analysis
  • the resource relation table 310 includes a volume-host side port relation table 311, a host side port-SAN switch relation table 312, a SAN switch-storage side port relation table 313, a storage side port-cache relation table 314, and a cache- A logical volume relation table 315, a logical volume-parity group relation table 316, and a parity group-physical disk relation table 317 are included.
  • FIG. 4 is an example of the volume-host side port relation table 311.
  • the volume-host side port relation table 400 shows the relationship between the volume of the host (business server A220, business server B221) and the host side port at a certain time.
  • the volume-host side port relation table 400 includes a collection time 401, a volume 402, and a host side port 403 as configuration items.
  • FIG. 5 is an example of the host side port-SAN switch relation table 312.
  • the host-side port-SAN switch relation table 500 shows the relationship between the host-side ports and the SAN switches (SAN switch A 240, SAN switch B 250) at a certain time.
  • the host-side port-SAN switch relation table 500 includes a collection time 501, a host-side port 502, and a SAN switch 503 as configuration items.
  • FIG. 6 is an example of the SAN switch-storage side port relation table 313.
  • the SAN switch-storage side port relation table 600 shows the relationship between the SAN switch and the storage device ports (port N215 to port P217) at a certain time.
  • the SAN switch-storage side port relation table 600 includes a collection time 601, a SAN switch 602, and a storage side port 603 as configuration items.
  • FIG. 7 is an example of the storage-side port-cache relation table 314.
  • the storage-side port-cache relation table 700 shows the relationship between the ports of the storage apparatus and the cache (cache A 213, cache B 214) at a certain time.
  • the storage-side port-cache relation table 700 includes a collection time 701, a storage-side port 702, and a cache 703 as configuration items.
  • FIG. 8 is an example of the cache-logical volume relation table 315.
  • the cache-logical volume association table 800 shows the relationship between the cache of the storage apparatus and the logical volumes (logical volume A to logical volume D204) at a certain time.
  • the cache-logical volume association table 800 includes a collection time 801, a cache 802, and a logical volume 803 as configuration items.
  • FIG. 9 is an example of the logical volume-parity group relation table 316.
  • the logical volume-parity group relation table 900 shows the relationship between the logical volume and the parity group (parity group A 205, parity group B 206) of the storage apparatus at a certain time.
  • the logical volume-parity group association table 900 includes a collection time 901, a logical volume 902, and a parity group 903 as configuration items.
  • FIG. 10 is an example of the parity group-physical disk association table 317.
  • the parity group-physical disk relation table 1000 shows the relationship between the parity group of the storage apparatus and the physical disks (physical disk A207 to physical disk F212) at a certain time.
  • the parity group-physical disk association table 1000 includes a collection time 1001, a parity group 1002, and a physical disk 1003 as configuration items.
  • FIG. 11 is an example of the resource performance table 320.
  • the resource performance table 1100 shows resource performance values at a certain time.
  • the resource performance table 1100 manages the performance values of both the host side and storage side resources.
  • the resource performance table 1100 includes a collection time 1101, a resource 1102, a performance index attribute name 1103, and a performance value 1104 as configuration items.
  • the setting information table 330 includes a performance threshold management table 331, a preliminary warning upper limit number management table 332, and a performance requirement management table 333.
  • FIG. 12 is an example of the performance requirement management table 333.
  • the performance requirement management table 1200 is a table for managing performance requirements on the host (that is, business server) side.
  • the performance requirement management table 1200 shows threshold values of performance values of business server volumes (volume A225 to volume C227). If the performance value of the host volume exceeds this threshold, it is determined that a performance problem has occurred in the host.
  • the performance requirement management table 1200 includes a resource 1201 and a performance value threshold value (here, Response Time) 1202 as configuration items.
  • the preliminary warning upper limit number management table is a table for managing the preliminary warning upper limit number.
  • the preliminary warning upper limit number is an upper limit number of warnings that can be handled by the system administrator per unit time. Some system administrators may want to set an upper limit on the number of notifications per unit time (hereinafter referred to as “the number of warnings”) when a performance problem occurs, and set a threshold for resources on the storage side within the upper limit.
  • the preliminary warning upper limit is a value used for this purpose. In this example, the preliminary warning upper limit number is set to one value for the entire storage system. However, it is not limited to this example.
  • the preliminary warning upper limit number may be set for each resource on the storage side.
  • FIG. 13 is an example of the performance threshold management table 331.
  • the performance threshold management table 1300 is a table for managing thresholds for determining the occurrence of a performance problem of a storage-side resource.
  • the performance threshold management table 1300 includes, as configuration items, a resource 1301, an attribute name 1302 of the resource performance index, a threshold 1303, and a detection sensitivity index 1304.
  • the detection sensitivity index 1304 is designated by the system administrator.
  • the threshold value 1303 is a threshold value for determining the occurrence of a resource performance problem on the storage side. In this embodiment, when the detection sensitivity index 1304 is designated, the threshold 1303 is set using the detection sensitivity index 1304.
  • the detection sensitivity index is an index indicating the intention of the system administrator with respect to the risks of the undetected state and the overdetected state.
  • the detection sensitivity index is (1) the frequency of events in which a performance problem has occurred in the host and no performance problem has occurred in the resource on the storage side (hereinafter referred to as “the number of undetected”), And (2) the ratio of the frequency of events (hereinafter referred to as “the number of excessive detections”) in which no performance problem has occurred in the host and a resource performance problem has occurred on the storage side.
  • FIG. 14A shows two frequency distributions for a resource A on the storage side.
  • the first frequency distribution 1401 is a frequency distribution in all time zones of the performance value of the resource A.
  • the second frequency distribution 1402 is a frequency distribution of the performance value of the resource A in the time zone when the performance problem occurs on the host side (business server A220, business server B221).
  • FIG. 14B is a diagram in which thresholds are defined on the two frequency distributions of FIG. 14A.
  • a threshold value x is defined on the first frequency distribution 1401 and the second frequency distribution 1402.
  • the area indicated by reference numeral 1403 corresponds to the undetected number.
  • a region indicated by reference numeral 1404 corresponds to the number of excessive detections.
  • the detection sensitivity index is 1 when no detection is allowed. On the other hand, the detection sensitivity index is 0 when no excessive detection is allowed.
  • the definition of the detection sensitivity index is not limited to the above example.
  • the frequency of other events can also be obtained from the relationship between the first frequency distribution 1401 and the second frequency distribution 1402 and the threshold value x.
  • an area 1405 indicates the frequency of events in which no performance problem has occurred in the host and no performance problem has occurred in the resource A.
  • An area 1406 indicates the frequency of an event in which a performance problem has occurred in the host and a performance problem has also occurred in the resource A.
  • four regions 1403 to 1406 can be defined from the relationship between the first frequency distribution 1401 and the second frequency distribution 1402 and the threshold value x.
  • the detection sensitivity index may be calculated from any combination of the four regions denoted by reference numerals 1403 to 1406.
  • FIG. 15 is an example of a setting screen for the detection sensitivity index.
  • the GUI display module 301 displays a detection sensitivity index setting screen on the display of the performance management server 150.
  • the system administrator can move the slider 1501 between over-detection suppression and non-detection suppression, and set the detection sensitivity index to a desired value.
  • the system administrator sets a detection sensitivity index for each performance index attribute for each resource on the storage side.
  • the threshold value of the resource performance index can be set at a desired position between the overdetected state and the undetected state.
  • FIG. 16 is a flowchart showing an example of the flow of processing in each component of the computer system.
  • the storage performance information collection module 133 executes loop 1 of steps 1601 to 1604.
  • the loop 1 end condition may be a condition that the configuration information and performance information of the storage apparatus in a certain time period are all collected, or a condition that the loop 1 is repeatedly executed for a specific time.
  • the storage performance information collection module 133 collects storage device configuration information and performance information via the storage system configuration device software 350.
  • the storage performance information collection module 133 stores the collected configuration information in the corresponding relation table of the resource relation table 310. In addition, the storage performance information collection module 133 stores the collected performance information in the resource performance table 320.
  • the termination condition of the loop 2 may be a condition that the configuration information and performance information of the SAN switch in a certain time period are all collected, or a condition that the loop 2 is repeatedly executed for a specific time.
  • the SAN switch performance information collection module 143 collects SAN switch configuration information and performance information via the storage system configuration device software 350.
  • the SAN switch performance information collection module 143 stores the collected configuration information in the corresponding association table of the resource association table 310.
  • the SAN switch performance information collection module 143 stores the collected performance information in the resource performance table 320.
  • the termination condition of the loop 3 may be a condition that the configuration information and performance information of the host in a certain time zone are repeated until it is collected, or a condition that the loop 3 is repeatedly executed for a specific time.
  • the host performance information collection module 127 collects business server configuration information and performance information via the storage system configuration device software 350.
  • the host performance information collection module 127 selects the collected configuration information and performance information based on the redundant configuration of the host. For example, when the first path (Primary data path) is used between the business server and the storage apparatus, the host performance information collection module 127 selects configuration information and performance information related to the first path. On the other hand, it is assumed that a performance problem has occurred in the first route in a certain time zone, and therefore the second route (Secondary data route) is used. In this case, the host performance information collection module 127 selects configuration information and performance information related to the second route. Therefore, normally, the configuration information and performance information of the first route are used for the subsequent generation of the frequency distribution.
  • the first path Primary data path
  • the second route Secondary data route
  • the second route Configuration information and performance information will be used to create a frequency distribution.
  • the path switching is performed by the business server OS, for example, and the information of the resources being used can be acquired from the business server OS, for example.
  • the host performance information collection module 127 stores the selected configuration information in the corresponding relation table of the resource relation table 310.
  • the host performance information collection module 127 stores the selected performance information in the resource performance table 320.
  • the frequency distribution creation module 305 creates a first frequency distribution and a second frequency distribution using the information of each relation table of the resource relation table 310 and the information of the resource performance table 320. Details of the frequency distribution creation processing executed here will be described later.
  • the threshold calculation module 304 calculates the threshold value of the performance value of the target resource using the two frequency distributions created by the frequency distribution creation module 305 and the information in the setting information table 330.
  • the threshold calculation module 304 stores the calculated threshold in the setting information table 330. Details of the threshold setting process executed here will be described later.
  • the performance determination module 306 determines the performance of the target resource using the threshold set by the threshold calculation module 304 (that is, the updated threshold in the setting information table 330). Details of the performance determination process executed here will be described later.
  • Step 1617 Each component of the computer system that has executed the above processing waits for a certain period. Thereafter, the processing of step 1601 is started.
  • the performance information is collected every certain period, the first and second frequency distributions are created, and the threshold value of the resource on the storage side is set using the first and second frequency distributions.
  • Performance information is accumulated over time, and first and second frequency distributions are created according to the accumulated performance information. Accordingly, it is possible to automatically set a new threshold value following changes in factors that affect the risk of the undetected state and the overdetected state. Further, in this embodiment, after a new threshold is set, it is possible to determine the performance of the storage-side resource using the threshold.
  • FIG. 17 is a flowchart showing the contents of the processing in step 1614.
  • the frequency distribution creation module 305 executes loop 1 of steps 1701 to 1710. Loop 1 is executed for a combination of all the resources on the storage side acquired from the resource relation table 310 and the metrics of the target resource.
  • the frequency distribution creation module 305 executes loop 2 of steps 1702 to 1709. Loop 2 is executed for all time zones acquired from the resource performance table 320. Instead of executing the loop 2 for all the time zones acquired from the resource performance table 320, it may be executed for a part of the past time zones.
  • the frequency distribution creation module 305 acquires a performance value from the resource performance table 320 with respect to a certain time zone of a certain target resource, and reflects the performance value in the first frequency distribution.
  • the frequency distribution creation module 305 acquires the volume on the host side (that is, the business server A 220 and the business server B 221) related to the target resource from the resource relation table 310.
  • Step 1705 The frequency distribution creation module 305 acquires the performance value of the volume on the host side in the time zone from the resource performance table 320.
  • the frequency distribution creation module 305 compares the performance value of the volume in the time period with the threshold value 1202 of the performance value of the corresponding volume in the performance requirement management table 1200.
  • the frequency distribution creation module 305 determines whether a performance problem has occurred on the host side from the above comparison result. If no performance problem has occurred, loop 2 is repeated (ie, steps 1703-1708 are performed for another time zone). On the other hand, if a performance problem has occurred, the process proceeds to step 1706.
  • the frequency distribution creation module 305 performs root cause analysis (RCA).
  • RCA is a method for inferring the root cause of the occurrence of a problem.
  • the frequency distribution creation module 305 determines whether the target resource is a cause of the performance problem on the host side using RCA.
  • a known method for example, Patent Document 2
  • Patent Document 2 as an example, exceeding a threshold value in a resource is defined as an event, a combination of events and a cause for a performance problem are described as a rule, and the cause of the failure is inferred based on this rule.
  • Other known methods may be used as the RCA.
  • Step 1707 If it is determined in step 1706 that the target resource is the cause of the performance problem on the host side, the frequency distribution creation module 305 reflects the performance value of the target resource in the second frequency distribution. If the target resource is not the cause of the performance problem on the host side in step 1706, loop 2 is repeated (that is, steps 1703 to 1708 are executed for another time zone).
  • the first frequency distribution which is the frequency distribution of performance values in all time zones, and the performance in the time zone in which performance problems occur on the host side.
  • a second frequency distribution that is a frequency distribution of values is created. Further, by executing RCA, only the performance value of the resource causing the performance problem on the host side can be reflected in the second frequency distribution. In this manner, the second frequency distribution can be created in consideration of the performance dependency between resources, and the accuracy of the subsequent threshold setting process is improved.
  • FIG. 18 is a flowchart showing the contents of the processing in step 1615.
  • the threshold calculation module 304 refers to the preliminary warning upper limit number management table 332 and determines whether the preliminary warning upper limit number is set.
  • Step 1802 The threshold calculation module executes the process of FIG. 19 when the preliminary warning upper limit number is not set.
  • Step 1803 The threshold calculation module executes the process of FIG. 20 when the preliminary warning upper limit number is set.
  • FIG. 19 is a flowchart of threshold setting processing in which a detection sensitivity index is designated.
  • FIG. 21A is a diagram illustrating the threshold value setting process of FIG.
  • the threshold calculation module 304 executes loop 1 of steps 1901 to 1913. Loop 1 is executed for a combination of all the resources on the storage side acquired from the resource relation table 310 and the metrics of the target resource.
  • Step 1902 The threshold calculation module 304 substitutes the current threshold x of the target resource for the threshold candidate X ′.
  • the threshold calculation module 304 calculates the excessive detection number N 1 and the undetected number N 2 based on the threshold candidate X ′ and the first and second frequency distributions.
  • the excessive detection number N 1 corresponds to the area of reference numeral 1404 in FIG. 14, and the undetected number N 2 corresponds to the area of reference numeral 1403 in FIG.
  • the threshold calculation module 304 determines whether or not the following formula (1) is satisfied.
  • y is a detection sensitivity index of the target resource.
  • the threshold calculation module 304 can obtain the value of y from the performance threshold management table 331 (that is, the detection sensitivity index 1304 of the performance threshold management table 1300).
  • N 1 ⁇ (1 ⁇ y) N 2 ⁇ y (1) If the expression (1) is satisfied, the process proceeds to step 1913 and loop 1 is repeated. On the other hand, if the expression (1) is not satisfied, the process proceeds to Step 1905.
  • Step 1905 The threshold calculation module 304 determines whether or not the following formula (2) is satisfied. N 1 ⁇ (1-y)> N 2 ⁇ y (2) If the expression (2) is satisfied, the process proceeds to Steps 1906 to 1908. On the other hand, if the expression (2) is not satisfied, the process proceeds to steps 1909 to 1911. In the subsequent steps, as shown in FIG. 21A, based on the determination of Expression (2), the value of the threshold candidate X ′ is increased or decreased by the minimum unit ⁇ X of the threshold setting change amount. I will let you. By this process, a threshold value that satisfies the detection sensitivity index y designated by the system administrator is searched.
  • Step 1906 The threshold calculation module 304 substitutes X ′ + ⁇ X for the threshold candidate X ′. Note that the minimum unit ⁇ X of the change amount of the threshold setting is set in advance. ⁇ X may be appropriately changed by the system administrator.
  • Step 1907 The threshold calculation module 304 calculates the excess detection number N 1 and the undetected number N 2 based on the new threshold candidate X ′ (that is, X ′ calculated in step 1906) and the first and second frequency distributions. To do.
  • Step 1908 The threshold calculation module determines whether or not the following formula (3) is satisfied. N 1 ⁇ (1-y) ⁇ N 2 ⁇ y (3) If Expression (3) is satisfied, the process proceeds to Step 1912. On the other hand, when Expression (3) is not satisfied, the process returns to Step 1906.
  • Step 1909 The threshold calculation module 304 substitutes X′ ⁇ X for the threshold candidate X ′.
  • the threshold calculation module 304 calculates the excess detection number N 1 and the undetected number N 2 based on the new threshold candidate X ′ (that is, X ′ calculated in step 1909) and the first and second frequency distributions. To do.
  • Step 1911 The threshold calculation module 304 determines whether or not the following formula (4) is satisfied. N 1 ⁇ (1-y) ⁇ N 2 ⁇ y (4) If Expression (4) is satisfied, the process proceeds to Step 1912. On the other hand, when Expression (4) is not satisfied, the process returns to Step 1909.
  • the threshold calculation module 304 updates the threshold of the target resource in the performance threshold management table 331 (that is, the threshold 1303 of the performance threshold management table 1300) with the threshold candidate X ′.
  • a threshold value that satisfies the specified detection sensitivity index is set according to the distribution of the actual performance values of the resources of the storage system to be managed.
  • the detection sensitivity index reflects the risk weighting for each of the overdetected state and the undetected state desired by the system administrator. Therefore, it is possible to set a threshold value desired by the system administrator and notify the occurrence of a failure using the threshold value.
  • FIG. 20 is a flowchart of the threshold setting process in which the preliminary warning upper limit number is designated.
  • FIG. 21B is a diagram for explaining the threshold setting process of FIG.
  • the threshold calculation module 304 substitutes 1 for the detection sensitivity index y.
  • the detection sensitivity index y is gradually reduced from this state to search for a threshold value that gives a warning number smaller than the preliminary warning upper limit number designated by the system administrator.
  • Step 2001 Thereafter, the threshold value calculation module 304 executes loop 1 of steps 2002 to 2015. Loop 1 is executed for a combination of all the resources on the storage side acquired from the resource relation table 310 and the metrics of the target resource.
  • the threshold calculation module 304 substitutes the current threshold x for the threshold candidate X ′.
  • the threshold calculation module 304 calculates the excessive detection number N 1 and the undetected number N 2 based on the threshold candidate X ′ and the first and second frequency distributions.
  • Step 2006 The threshold calculation module 304 determines whether or not the following formula (2) is satisfied. N 1 ⁇ (1-y)> N 2 ⁇ y (2) If the expression (2) is satisfied, the process proceeds to steps 2007 to 2009. On the other hand, if the expression (2) is not satisfied, the processing proceeds to steps 2010 to 2012.
  • the threshold calculation module 304 substitutes X ′ + ⁇ X for the threshold candidate X ′.
  • ⁇ X is the minimum unit of change amount of the threshold setting.
  • ⁇ X is set in advance. ⁇ X may be appropriately changed by the system administrator.
  • the threshold calculation module 304 calculates the excess detection number N 1 and the undetected number N 2 based on the new threshold candidate X ′ (that is, X ′ calculated in step 2007) and the first and second frequency distributions. .
  • Step 2009 The threshold calculation module 304 determines whether or not the following expression (3) is satisfied. N 1 ⁇ (1-y) ⁇ N 2 ⁇ y (3) If the expression (3) is satisfied, the process proceeds to step 2013. On the other hand, when Expression (3) is not satisfied, the process returns to Step 2007.
  • Step 2010 The threshold calculation module 304 substitutes X′ ⁇ X for the threshold candidate X ′.
  • the threshold calculation module 304 calculates the overdetected number N 1 and the undetected number N 2 based on the new threshold candidate X ′ (that is, X ′ calculated in step 2010) and the first and second frequency distributions. .
  • Step 2012 The threshold calculation module 304 determines whether or not the following formula (4) is satisfied. N 1 ⁇ (1-y) ⁇ N 2 ⁇ y (4) If the expression (4) is satisfied, the process proceeds to step 2013. On the other hand, when Expression (4) is not satisfied, the process returns to Step 2010.
  • the threshold calculation module 304 updates the threshold 1303 of the target resource in the performance threshold management table 331 with the threshold candidate X ′.
  • the threshold calculation module 304 aggregates the number of warnings z using the threshold of the target resource in the performance threshold management table 331 and the first and second frequency distributions.
  • the number of warnings z corresponds to the area indicated by reference numeral 2101 in FIG. 21B and means the number of warnings received by the system administrator when the threshold value is set.
  • the threshold calculation module 304 totals the number of warnings z until the end condition of the loop 1 is satisfied. That is, z is calculated for all combinations of storage-side resources and resource metrics, and the sum of these is finally obtained. After loop 1 ends, the process proceeds to step 2016.
  • Step 2016 The threshold calculation module 304 determines whether one of the following two expressions i) and ii) is satisfied.
  • Step 2017 The threshold calculation module 304 substitutes y ⁇ y for the detection sensitivity index y.
  • ⁇ y is the minimum unit of change amount of the detection sensitivity index.
  • the system administrator has a desire to set an upper limit on the number of notifications (number of warnings) per unit time when a performance problem occurs, but according to the threshold setting process described above, the resource of the storage system to be managed is requested.
  • a threshold value that gives a warning number smaller than the designated preliminary warning upper limit number can be set.
  • FIG. 22 is a flowchart showing the contents of the performance determination process (step 1616) of FIG.
  • the performance determination module 306 executes loop 1 from step 2201 to step 2204. Loop 1 is executed for a combination of all the resources on the storage side acquired from the resource relation table 310 and the metrics of the target resource.
  • the performance determination module 306 determines whether or not a performance problem has occurred in the performance determination target resource on the storage side. Specifically, the performance determination module 306 compares the performance value of the performance determination target resource in the resource performance table 320 with the threshold value in the performance threshold management table 331. The performance determination module 306 determines from the comparison result whether a performance problem has occurred in the performance determination target resource. If a performance problem has occurred, the process proceeds to step 2203. On the other hand, if no performance problem has occurred, loop 1 is repeatedly executed.
  • the performance determination module 306 notifies the system administrator through the user notification module 303 that a performance problem has occurred in the performance determination target resource.
  • the user notification module 303 receives the determination result from the performance determination module 306 and outputs the notification content to the GUI display module 301.
  • the GUI display module 301 displays the notification content on, for example, a display.
  • FIG. 23 is a flowchart when various types of information are input from the user.
  • the GUI display module 301 displays a screen for updating the detection sensitivity index in the performance threshold management table 331, a screen for updating the threshold in the performance requirement management table 333, and a preliminary warning in the preliminary warning upper limit number management table 332 A screen for updating the upper limit number is displayed on the display.
  • Step 2301 The user input module 302 receives information input on the above-described screen via the GUI display module 301.
  • the user input module 302 proceeds to step 2302.
  • Step 2302 The user input module 302 proceeds to the next step according to the input content. If the detection sensitivity index of the performance threshold management table 331 is input, the process proceeds to step 2303. When the threshold value of the performance requirement management table 333 is input, the process proceeds to step 2305. When the preliminary warning upper limit number in the preliminary warning upper limit number management table 332 is input, the process proceeds to step 2306.
  • Step 2303 The user input module 302 updates the performance threshold management table 331 with the input detection sensitivity index.
  • Step 2304 The user input module 302 deletes the preliminary warning upper limit number from the preliminary warning upper limit number management table 332.
  • Step 2305) The user input module 302 updates the performance requirement management table 333 with the input threshold value.
  • Step 2306 The user input module 302 updates the preliminary warning upper limit number management table 332 with the input preliminary warning upper limit number.
  • a threshold setting process (step 1615) is executed, and a resource threshold is set according to the input content (detection sensitivity index or preliminary warning upper limit number).
  • the intention of the system administrator with respect to the risks of the undetected state and the over-detected state is not uniquely determined by the trade-off relationship, the intention is reflected on the threshold value easily and appropriately.
  • Means can be provided.
  • the intention of the system administrator is expressed in a machine-processable form (detection sensitivity index or preliminary warning upper limit number) and is input to the system administrator and used as a constraint condition when setting a threshold. Therefore, an appropriate threshold value reflecting the intention of the system administrator can be set. Furthermore, it is possible to automatically set a new threshold value following changes in factors that influence the risk of the undetected state and the overdetected state.
  • the performance information collection module 340 collects information indicating a relationship between a plurality of resources between the host and the storage based on the redundant configuration of the data path between the host and the storage. For example, the information (resource relation table 310) indicating the relation between resources is selected based on the information of the route used in that time zone. Therefore, it is possible to eliminate related information between resources that are not related in each time zone.
  • the frequency distribution creation module 305 performs root cause analysis (RCA), and when it is determined that the resource on the storage side is the cause of the performance problem on the host side, the performance value of the resource is set to the second frequency distribution. To reflect. Since only the performance value of the resource that causes the performance problem on the host side is reflected in the second frequency distribution, it is possible to perform threshold setting processing in consideration of the dependency of performance between resources.
  • RCA root cause analysis
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
  • a part of the configuration of one embodiment can be replaced with the configuration of another embodiment.
  • the structure of another Example can also be added to the structure of a certain Example.
  • another configuration can be added, deleted, or replaced.
  • the detection sensitivity index is set for each of the plurality of resources on the storage side
  • the threshold of the performance value of the resource that satisfies the detection sensitivity index is set for each of the plurality of resources using the first and second frequency distributions.
  • the user input module 302 may accept one detection sensitivity index that is applied to all of the plurality of resources on the storage side.
  • the frequency distribution creation module 305 creates the first frequency distribution and the second frequency distribution for each of the plurality of resources
  • the threshold value calculation module 304 uses the first frequency distribution for each of the plurality of resources.
  • a threshold value of the performance value of the resource that satisfies the one detection sensitivity index is calculated.
  • the user input module 302 may accept the threshold value of the resource on the storage side.
  • the threshold calculation module 304 calculates a detection sensitivity index corresponding to the input threshold using the first frequency distribution and the second frequency distribution, and the calculated notification sensitivity index is stored in the user notification module 303. It may be output via. According to this configuration, the system administrator can check how much the detection sensitivity index is the threshold value input by the system administrator.
  • each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. All the components may be connected to each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

管理計算機は、過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力モジュールと、ストレージ側のリソースの性能値の第1の度数分布と、ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第2の度数分布を作成する度数分布作成モジュールと、前記第1の度数分布と前記第2の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出モジュールと、を備える。

Description

管理計算機及び閾値設定方法
 本発明は、管理計算機及び閾値設定方法に関する。
 SAN環境におけるシステム管理ソフトウェアでは、ストレージ側の構成要素の性能指標を定期的に取得し、その性能指標の値が予め設定された閾値より悪化した場合にシステム管理者に通知する運用を行うことが多い。
 特許文献1は、上記の運用のための技術を開示している。特許文献1には、「管理ソフトウェアを用いて、管理対象機器に対し事前に性能監視のための閾値を設定し、性能取得値が閾値を超過した場合は性能障害イベントとして感知する」と記載されている。
特開2011-198262号公報 米国特許7107185号公報
 一般に、SAN環境では、ストレージが、多くのホストによって共用されている。このような構成の場合、ストレージ側の性能指標の悪化がホストに及ぼす影響を定量的に見積もることが困難である。したがって、従来より、ストレージ側の性能指標に対して適切な閾値を設定することは難しいという課題がある。
 ここで、設定した閾値が高すぎると、性能指標が本来検出すべきである異常値になっていたとしても、性能指標が閾値に達しないため、性能障害イベントとして検出できないことになる(以下、この状態を「未検出」状態と呼ぶ)。一方、設定した閾値が低すぎると、性能指標が異常値として検出すべき値になっていないにもかかわらず、性能指標が閾値に達してしまうため、性能障害イベントとして検出されてしまうことになる(以下、この状態を「過剰検出」状態と呼ぶ)。上記の通り、未検出状態と過剰検出状態はトレードオフの関係となる。
 特許文献1には、設定された閾値が未検出状態または過剰検出状態のどちらかに偏った値に設定されることを防ぐための技術が開示されている。特許文献1には、「イベントヒット状況に基づき、閾値再計算処理を実行し、機器本来の性能に比して高く、もしくは低く設定された閾値を補正する」と記載されている。
 しかしながら、システム管理者は、ある作業時間では過剰検出状態を許容し、未検出を可能な限り軽減したい場合がある。一方、別の作業時間では、システム管理者が、未検出状態を許容する運用を行いたい場合がある。特許文献1は、未検出状態及び過剰検出状態のどちらにも偏らない値に閾値を補正する技術を開示しているだけである。したがって、特許文献1の技術では、システム管理者が性能指標の閾値を過剰検出状態と未検出状態との間の所望の位置に設定することはできない。
 そこで、本発明は、性能指標の閾値を、過剰検出状態と未検出状態との間の所望の位置に設定することが可能な技術を提供する。
 例えば、上記課題を解決するために、請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、ホストと、前記ホストとネットワークを介して接続されているストレージとを備える計算機システムを管理する管理計算機が提供される。当該管理計算機は、過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力モジュールと、前記ストレージ側のリソースの性能値の第1の度数分布と、前記ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第2の度数分布を作成する度数分布作成モジュールと、前記第1の度数分布と前記第2の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出モジュールと、を備える。
 また、他の例によれば、ホストと、前記ホストとネットワークを介して接続されているストレージとを備える計算機システムにおいて、前記ストレージ側のリソースの閾値を設定する閾値設定方法が提供される。当該閾値設定方法は、入力モジュールによって、過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力ステップと、度数分布作成モジュールによって、前記ストレージ側の前記リソースの性能値の第1の度数分布と、前記ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第2の度数分布とを作成する度数分布作成ステップと、閾値算出モジュールによって、前記第1の度数分布と前記第2の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出ステップと、を含む。
 本発明によれば、性能指標の閾値を、過剰検出状態と未検出状態との間の所望の位置に設定することが可能となる。なお、本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成及び効果は、以下の実施例の説明により明らかにされる。
計算機システムの一実施例の全体概要を示すブロック図である。 記憶システムの詳細な内部構成例を示す図である。 記憶システム性能管理モジュールの詳細な内部構成例を示す図である。 ボリューム-ホスト側ポート関連表の一例である。 ホスト側ポート-SANスイッチ関連表の一例である。 SANスイッチ-ストレージ側ポート関連表の一例である。 ストレージ側ポート-キャッシュ関連表の一例である。 キャッシュ-論理ボリューム関連表の一例である。 論理ボリューム-パリティグループ関連表の一例である。 パリティグループ-物理ディスク関連表の一例である。 リソース性能表の一例である。 性能要件管理表の一例である。 性能閾値管理表の一例である。 ストレージ側のあるリソースに関する2つの度数分布を示す。 図14Aの2つの度数分布上に閾値を定義した図である。 検出感度指数の設定画面の一例である。 計算機システムの各構成要素における処理の流れの一例を示すフローチャートである。 図16の度数分布作成処理(ステップ1614)の内容を示すフローチャートである。 図16の閾値設定処理(ステップ1615)の内容を示すフローチャートである。 検出感度指数を指定した閾値設定処理のフローチャートである。 予備警告上限数を指定した閾値設定処理のフローチャートである。 図19の閾値設定処理を説明する図である。 図20の閾値設定処理を説明する図である。 図16の性能判定処理(ステップ1616)の内容を示すフローチャートである。 ユーザから各種情報が入力されたときのフローチャートである。
 以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
 図1は、計算機システムの一実施例の全体概要を示すブロック図である。本実施例の計算機システムは、ストレージ装置(単に、「ストレージ」と呼ぶこともある)100と、業務サーバ(単に、「ホスト」と呼ぶこともある)120と、第1及び第2の性能情報収集サーバ130、140と、性能管理サーバ150とを備える。
 ストレージ装置100と業務サーバ120とは、ネットワークを介して接続されている。具体的には、ストレージ装置100と業務サーバ120とは、SAN(Storage Area Network)スイッチ160を介して接続されている。本実施例では、ストレージ装置100と業務サーバ120とSANスイッチ160によって記憶システム180が構成されている。なお、業務サーバ120は、複数存在してよい。
 各サーバ120、130、140、150は、コンピュータ、ワークステーションなどの計算機によって構成されている。当該計算機は、中央演算処理装置と、補助記憶装置と、主記憶装置とを備えてよい。中央演算処理装置は、CPU(Central Processing Unit)などのプロセッサで構成されている。例えば、補助記憶装置はハードディスクであり、主記憶装置はメモリである。ハードディスクは、各種ソフトウェア及び各種情報等を格納するために用いられる。なお、ハードディスクに代えて、例えばフラッシュメモリのような半導体メモリ又は光ディスク装置等を適用するようにしてもよい。また、計算機は、表示部及び入力部を備えてよい。入力部は、キーボード、ポインティングデバイス(マウスなど)などである。表示部は、ディスプレイ、プリンタなどである。なお、図1において、各サーバ120、130、140、150の構成要素は、主要な構成要素(例えば、CPU、メモリなど)のみを示しており、他の構成要素は省略されている。
 第1及び第2の性能情報収集サーバ130、140及び性能管理サーバ150は、LAN(Local Area Network)170を介して、ストレージ装置100、業務サーバ120、及びSANスイッチ160に接続されている。なお、業務サーバ120が複数存在する場合は、第1及び第2の性能情報収集サーバ130、140及び性能管理サーバ150が、LAN170を介して各業務サーバ120に接続されていてもよい。
 ストレージ装置100は、業務サーバ120にデータ記憶領域を提供するデータ記憶装置である。ストレージ装置100は、CPU101と、データを格納するための物理ディスク106、107、108、109と、SANスイッチ160を介して業務サーバ120に接続するためのポート110、111、112と、業務サーバ120との間でやりとりするデータを一時的に記憶するキャッシュ104、105と、ポート110、111、112と物理ディスク106、107、108、109との間に介在し、両者の間でデータの受け渡しを行うコントローラ102、103とを備える。
 業務サーバ120は、業務システムの業務機能を提供する計算機である。業務サーバ120は、例えば、それらに接続された、図示しないクライアントコンピュータからファイルのI/O要求を受信し、それに基づいてストレージ装置100へのアクセスを実現する。業務サーバ120は、CPU121と、メモリ122と、SANスイッチ170を介してストレージ装置100に接続するためのポート123、124とを備える。業務サーバ120では、業務ソフト125と、OS(Operating System)126と、ホスト性能情報収集モジュール127が動作する。これらのソフトウェアは、メモリ122にロードされ、CPU121によって実行される。なお、これらのソフトウェアは、ハードディスクに格納され、必要に応じてメモリ122に複写されてもよい。ホスト性能情報収集モジュール127は、業務サーバ120の構成情報及び性能情報を収集し、収集した構成情報及び性能情報を性能管理サーバ150へ送信する。
 第1の性能情報収集サーバ130は、CPU131と、メモリ132とを備える。第1の性能情報収集サーバ130では、OS(図示省略)と、ストレージ性能情報収集モジュール133が動作する。これらのソフトウェアは、メモリ132にロードされ、CPU131によって実行される。なお、これらのソフトウェアは、ハードディスクに格納され、必要に応じてメモリ132に複写されてもよい。ストレージ性能情報収集モジュール133は、ストレージ装置100の構成情報及び性能情報を収集し、収集した構成情報及び性能情報を性能管理サーバ150へ送信する。
 第2の性能情報収集サーバ140は、CPU141と、メモリ142とを備える。第2の性能情報収集サーバ140では、OS(図示省略)と、SANスイッチ性能情報収集モジュール143が動作する。これらのソフトウェアは、メモリ142にロードされ、CPU141によって実行される。なお、これらのソフトウェアは、ハードディスクに格納され、必要に応じてメモリ142に複写されてもよい。SANスイッチ性能情報収集モジュール143は、SANスイッチ160の構成情報及び性能情報を収集し、収集した構成情報及び性能情報を性能管理サーバ150へ送信する。
 性能管理サーバ150は、記憶システム180の構成情報及び性能情報を収集し、記憶システム180の構成要素を監視する管理計算機である。性能管理サーバ150は、CPU151と、メモリ152とを備える。性能管理サーバ150では、OS(図示省略)と、記憶システム性能管理モジュール153が動作する。これらのソフトウェアは、メモリ152にロードされ、CPU151によって実行される。記憶システム性能管理モジュール153は、記憶システム180を監視し、各構成デバイス(ストレージ装置100、業務サーバ120、SANスイッチ160)の処理性能を示す性能値を取得する。また、記憶システム性能管理モジュール153は、あらかじめ設定された閾値と、取得した性能値とを比較し、各構成デバイスの性能の異常を検知する。
 図2は、記憶システムの詳細な内部構成例を示す図であり、図1の記憶システム180のハードウェア構成をより詳細に示す図である。記憶システムは、ストレージ装置200と、業務サーバA220と、業務サーバB221と、SANスイッチA240と、SANスイッチB250とを備える。
 業務サーバA220では、業務ソフトA222及び業務ソフトB223が動作する。業務ソフトA222はボリュームA225を使用し、業務ソフトB223はボリュームB226を使用する。また、業務サーバA220は、ポートA228~ポートB229を介して、SANスイッチA240及びSANスイッチB250に接続される。
 業務サーバB221では、業務ソフトC224が動作する。業務ソフトC224はボリュームC227を使用する。業務サーバB221は、ポートC230を介して、SANスイッチB250に接続される。
 ボリュームA225~ボリュームC227は、ファイルを外部記憶装置(ここでは、ストレージ装置200)に格納するための領域としてOS(図示省略)によって管理される。
 ボリュームA225~ボリュームC227は、それぞれ、ストレージ装置200の論理ボリュームA201~論理ボリュームD204に割り当てられる。論理ボリュームA201~論理ボリュームD204は、それぞれ、パリティグループA205及びパリティグループB206のいずれかに割り当てられる。ここでは、論理ボリュームA201及び論理ボリュームB202がパリティグループA205に割り当てられ、論理ボリュームC203及び論理ボリュームD204がパリティグループB206に割り当てられる。パリティグループA205には、物理ディスクA207~物理ディスクC209が割り当てられ、パリティグループB206には、物理ディスクD210~物理ディスクF212が割り当てられる。
 また、論理ボリュームA201~論理ボリュームD204と、それらに割り当てられるボリュームA225~ボリュームC227との対応関係が定まると、それらの間でやり取りされるデータが経由するホスト側のポートA228~ポートC230と、ストレージ側のポートN215~ポートP217とが決定される。なお、ボリュームA225~ボリュームC227と論理ボリュームA201~論理ボリュームD204との間でやり取りされるデータは、コントローラ(図1を参照)を介して、キャッシュA213~キャッシュB214に一時的に記憶される。
 以下では、ストレージ側のリソースの性能指標の閾値の設定処理について説明するが、本実施例における「ストレージ側のリソース」とは、図2の点線280の範囲にある構成要素を想定している。したがって、点線280の範囲内にあるリソースが閾値の設定対象となる。なお、「ストレージ側のリソース」は、この例に限定されない。例えば、業務サーバA220及び業務サーバB221のバックエンド側の任意の範囲をストレージ側のリソースとして扱ってもよい。
 図3は、図1の記憶システム性能管理モジュール153の詳細な内部構成例を示す図である。記憶システム性能管理モジュール300は、GUI表示モジュール301と、ユーザ入力モジュール302と、ユーザ通知モジュール303と、閾値算出モジュール304と、度数分布作成モジュール305と、性能判定モジュール306とを備える。また、記憶システム性能管理モジュール300は、リソース関連表310と、リソース性能表320と、設定情報表330とを備える。
 GUI表示モジュール301は、性能管理サーバ150の表示部(例えば、ディスプレイ)に表示するGUI(Graphical User Interface)を表示するモジュールである。例えば、GUI表示モジュール301は、設定情報表330に関する画面、及び、ストレージ側のリソースの性能の判定結果に関する画面などをディスプレイに表示する。
 ユーザ入力モジュール302は、GUI表示モジュール301を介して受け取った入力情報(例えば、設定情報表330に関する入力情報)を受け取り、その入力情報を設定情報表330に設定する。
 ユーザ通知モジュール303は、性能判定モジュール306からストレージ側のリソースの性能の判定結果を受け取り、GUI表示モジュール301を介してシステム管理者に通知する。なお、通知手段は、ディスプレイ表示に限定されず、メール通知などの他の通知方法でもよい。
 度数分布作成モジュール305は、ストレージ側のリソースの閾値設定処理に使用する度数分布を作成する。具体的には、度数分布作成モジュール305は、リソース関連表310と、リソース性能表320と、設定情報表330とを用いて、第1の度数分布と第2の度数分布を作成する。ここで、第1の度数分布は、過去に収集したストレージ側のリソースの性能値の集合のうち、全ての時間帯における性能値の度数分布である。第2の度数分布は、過去に収集したストレージ側のリソースの性能値の集合のうち、ホスト側(例えば、業務サーバA220、業務サーバB221)で性能問題が発生している時間帯における性能値の度数分布である。なお、ここでの例では、第1の度数分布及び第2の度数分布は、過去に収集した全ての時間帯の性能値の集合を対象としているが、過去に収集した一部の時間帯の性能値の集合を対象としてもよい。
 閾値算出モジュール304は、記憶システム180のストレージ側のリソースに関する閾値を算出する。閾値算出モジュール304は、算出した閾値を設定情報表330に設定する。設定情報表330に設定された閾値は、ストレージ側のリソースにおいて性能問題が発生したか否かを判定するために使用される。
 閾値算出モジュール304は、第1の度数分布及び第2の度数分布を用いて、ストレージ側のリソースの性能値の閾値を算出する。より具体的には、閾値算出モジュール304は、2つの方法のいずれかから閾値を算出する。第1の方法では、閾値算出モジュール304は、第1の度数分布と第2の度数分布とを用いて、ストレージ側の各リソースについて、検出感度指数を満たす閾値を算出する。閾値算出モジュール304は、第1の度数分布と第2の度数分布の上で閾値の位置を変動させて、システム管理者によって指定された検出感度指数を満たす閾値の位置を探索する。「検出感度指数」の詳細については後述する。なお、閾値の探索には、二分探索法などの公知の手法を用いることができる。
 第2の方法では、閾値算出モジュール304は、第1の度数分布と第2の度数分布とを用いて、ストレージ側の各リソースについて、予備警告上限数より小さい警告数となる閾値を算出する。閾値算出モジュール304は、第1の度数分布と第2の度数分布の上で閾値の位置を変動させて、システム管理者によって指定された予備警告上限数より小さい警告数となる閾値の位置を探索する。「予備警告上限数」の詳細については後述する。
 性能判定モジュール306は、ストレージ側のリソースに性能問題が発生しているかを判定する。具体的には、性能判定モジュール306は、リソース性能表320の中の性能判定対象のリソースの性能値と、設定情報表330の閾値とを比較することにより、そのリソースに性能問題が発生しているかを判定する。性能判定モジュール306は、判定結果をユーザ通知モジュール303に出力する。
 性能情報収集モジュール340は、図1のホスト性能情報収集モジュール127、ストレージ性能情報収集モジュール133、及び、SANスイッチ性能情報収集モジュール143に対応するものである。性能情報収集モジュール340は、構成情報取得モジュール341と、性能情報取得モジュール342とを備える。構成情報取得モジュール341は、記憶システム構成装置ソフトウェア350から構成情報を取得する。ここでの構成情報は、図2で示した記憶システムのリソースの構成情報である。また、性能情報取得モジュール342は、記憶システム構成装置ソフトウェア350から性能情報を取得する。ここでの性能情報は、図2で示した記憶システムのリソースの性能情報である。
 記憶システム構成装置ソフトウェア350は、例えば、記憶システムの構成装置(業務サーバ、ストレージ装置、SANスイッチ)に組み込まれるモジュールである。記憶システム構成装置ソフトウェア350は、記憶システムの構成装置において実行されるプログラムモジュール、又は、それらのハードウェアの一部である。一例として、記憶システム構成装置ソフトウェア350は、記憶システムの構成装置(業務サーバ、ストレージ装置など)のOSに組み込まれてもよい。記憶システム構成装置ソフトウェア350は、構成情報取得モジュール351と、性能情報取得モジュール352とを備え、各構成装置の構成情報及び性能情報を取得する。
 次に、本実施例で使用されるリソース関連表310、設定情報表330、及びリソース性能表320を説明する。各種情報について、以後の説明では「テーブル」構造を用いて説明するが、必ずしもテーブルによるデータ構造で表現されていなくてもよく、他のデータ構造で表現されていてもよい。
 リソース関連表310は、業務サーバ(業務サーバA220、業務サーバB221)とストレージ装置200との間にある複数のリソース間の関連を示す情報である。リソース関連表310は、例えば、第2の度数分布を作成する際に使用することができる。あるリソースAについて第2の度数分布を作成することを想定する。リソース関連表310を用いることによって、ある時刻におけるリソースAと業務サーバのボリューム(ボリュームA225~ボリュームC227)との関連が分かるため、その時刻の業務サーバの性能値に基づいて、その時刻のリソースAの性能値を第2の度数分布に反映させるかを判定することができる。
 また、リソース関連表310は、リソース間の性能の依存関係を示す情報として使用することができる。一つのリソースの性能に問題が発生すると、その性能問題の影響を受けて、ホスト側(業務サーバ)で性能問題が発生する場合がある。リソース関連表310は、ある時刻におけるリソース間の関連情報を表すため、この関連情報を用いて、あるリソースの性能問題が、ホスト側に性能問題が発生した場合の原因であるかを判定することができる。一例として、リソース関連表310は、根本原因解析(RCA: Root cause analysis)に用いることができる。RCAについては後述する。
 リソース関連表310は、ボリューム-ホスト側ポート関連表311と、ホスト側ポート-SANスイッチ関連表312と、SANスイッチ-ストレージ側ポート関連表313と、ストレージ側ポート-キャッシュ関連表314と、キャッシュ-論理ボリューム関連表315と、論理ボリューム-パリティグループ関連表316と、パリティグループ-物理ディスク関連表317とを含む。
 図4は、ボリューム-ホスト側ポート関連表311の一例である。ボリューム-ホスト側ポート関連表400は、ある時刻におけるホスト(業務サーバA220、業務サーバB221)のボリュームとホスト側のポートとの関係を示す。ボリューム-ホスト側ポート関連表400は、収集時刻401と、ボリューム402と、ホスト側ポート403とを構成項目として含む。
 図5は、ホスト側ポート-SANスイッチ関連表312の一例である。ホスト側ポート-SANスイッチ関連表500は、ある時刻におけるホスト側のポートとSANスイッチ(SANスイッチA240、SANスイッチB250)との関係を示す。ホスト側ポート-SANスイッチ関連表500は、収集時刻501と、ホスト側ポート502と、SANスイッチ503とを構成項目として含む。
 図6は、SANスイッチ-ストレージ側ポート関連表313の一例である。SANスイッチ-ストレージ側ポート関連表600は、ある時刻におけるSANスイッチとストレージ装置のポート(ポートN215~ポートP217)との関係を示す。SANスイッチ-ストレージ側ポート関連表600は、収集時刻601と、SANスイッチ602と、ストレージ側ポート603とを構成項目として含む。
 図7は、ストレージ側ポート-キャッシュ関連表314の一例である。ストレージ側ポート-キャッシュ関連表700は、ある時刻におけるストレージ装置のポートとキャッシュ(キャッシュA213、キャッシュB214)との関係を示す。ストレージ側ポート-キャッシュ関連表700は、収集時刻701と、ストレージ側ポート702と、キャッシュ703とを構成項目として含む。
 図8は、キャッシュ-論理ボリューム関連表315の一例である。キャッシュ-論理ボリューム関連表800は、ある時刻におけるストレージ装置のキャッシュと論理ボリューム(論理ボリュームA~論理ボリュームD204)との関係を示す。キャッシュ-論理ボリューム関連表800は、収集時刻801と、キャッシュ802と、論理ボリューム803とを構成項目として含む。
 図9は、論理ボリューム-パリティグループ関連表316の一例である。論理ボリューム-パリティグループ関連表900は、ある時刻におけるストレージ装置の論理ボリュームとパリティグループ(パリティグループA205、パリティグループB206)との関係を示す。論理ボリューム-パリティグループ関連表900は、収集時刻901と、論理ボリューム902と、パリティグループ903とを構成項目として含む。
 図10は、パリティグループ-物理ディスク関連表317の一例である。パリティグループ-物理ディスク関連表1000は、ある時刻におけるストレージ装置のパリティグループと物理ディスク(物理ディスクA207~物理ディスクF212)の関係を示す。パリティグループ-物理ディスク関連表1000は、収集時刻1001と、パリティグループ1002と、物理ディスク1003とを構成項目として含む。
 図11は、リソース性能表320の一例である。リソース性能表1100は、ある時刻におけるリソースの性能値を示す。リソース性能表1100は、ホスト側及びストレージ側の両方のリソースの性能値を管理する。リソース性能表1100は、収集時刻1101と、リソース1102と、性能指標の属性名1103と、性能値1104とを構成項目として含む。
 設定情報表330は、性能閾値管理表331と、予備警告上限数管理表332と、性能要件管理表333とを含む。
 図12は、性能要件管理表333の一例である。性能要件管理表1200は、ホスト(すなわち、業務サーバ)側の性能要件を管理するテーブルである。性能要件管理表1200は、業務サーバのボリューム(ボリュームA225~ボリュームC227)の性能値の閾値を示す。ホストのボリュームの性能値がこの閾値を超えた場合、ホストに性能問題が発生していると判定される。性能要件管理表1200は、リソース1201と、性能値の閾値(ここでは、Response Time)1202を構成項目として含む。
 予備警告上限数管理表は、予備警告上限数を管理するテーブルである。予備警告上限数は、単位時間当たりのシステム管理者が対応可能な警告上限数である。システム管理者によっては、性能問題が発生した場合の単位時間当たりの通知数(以下では「警告数」という)に上限を設け、その上限内でストレージ側のリソースの閾値を設定したい場合がある。予備警告上限数は、この目的のために使用される値である。ここでの例では、予備警告上限数は、記憶システムの全体に対して1つの値が設定される。しかしながら、この例に限定されない。予備警告上限数がストレージ側のリソースごとに設定されてもよい。
 図13は、性能閾値管理表331の一例である。性能閾値管理表1300は、ストレージ側のリソースの性能問題の発生を判定するための閾値を管理するテーブルである。性能閾値管理表1300は、リソース1301と、リソースの性能指標の属性名1302と、閾値1303と、検出感度指数1304とを構成項目として含む。検出感度指数1304はシステム管理者によって指定される。閾値1303は、ストレージ側のリソースの性能問題の発生を判定するための閾値である。本実施例では、検出感度指数1304が指定されたとき、検出感度指数1304を用いて閾値1303が設定される。
 次に、検出感度指数について説明する。検出感度指数は、未検出状態及び過剰検出状態のリスクに対するシステム管理者の意向を示す指標である。本実施例において、検出感度指数は、(1)ホストにおいて性能問題が発生し、かつ、ストレージ側のリソースの性能問題が発生していない事象の頻度(以下、「未検出数」と呼ぶ)、及び、(2)ホストにおいて性能問題が発生しておらず、かつ、ストレージ側のリソースの性能問題が発生している事象の頻度(以下、「過剰検出数」と呼ぶ)の比率である。
 検出感度指数について図14A及び図14Bを用いてより詳細に説明する。図14Aは、ストレージ側のあるリソースAに関する2つの度数分布を示す。第1の度数分布1401は、リソースAの性能値の全ての時間帯の度数分布である。第2の度数分布1402は、ホスト側(業務サーバA220、業務サーバB221)で性能問題が発生している時間帯における、リソースAの性能値の度数分布である。
 図14Bは、図14Aの2つの度数分布上に閾値を定義した図である。第1の度数分布1401及び第2の度数分布1402上に閾値xを定義する。このとき、符号1403で示される領域が未検出数に相当する。また、符号1404で示される領域が過剰検出数に相当する。本実施例では、検出感度指数を以下のように定義する。
 検出感度指数=(過剰検出数1404)/(未検出数1403+過剰検出数1404)
 検出感度指数は、その値が大きいほど、性能問題の検出数が大きくなる(すなわち、未検出を許容しない状態となっていく)。検出感度指数は、未検出を全く許容しない場合、1となる。一方、検出感度指数は、過剰検出を全く許容しない場合、0となる。
 なお、検出感度指数の定義は、上記の例に限定されない。図14Bに示すように、第1の度数分布1401及び第2の度数分布1402と、閾値xとの関係から、他の事象の頻度も求めることができる。例えば、符号1405の領域は、ホストにおいて性能問題が発生しておらず、かつ、リソースAにおいても性能問題が発生していない事象の頻度を示す。また、符号1406の領域は、ホストにおいて性能問題が発生しており、かつ、リソースAにおいても性能問題が発生している事象の頻度を示す。このように第1の度数分布1401及び第2の度数分布1402と、閾値xとの関係から、符号1403~1406の4つの領域を定義できる。検出感度指数は、符号1403~1406の4つの領域の任意の組み合わせから計算されてもよい。
 図15は、検出感度指数の設定画面の一例である。GUI表示モジュール301は、性能管理サーバ150のディスプレイに検出感度指数設定画面を表示する。システム管理者は、スライダ1501を過剰検出抑制と未検出抑制との間で動かし、検出感度指数を所望の値で設定することができる。システム管理者は、ストレージ側のリソースの各々について性能指標の属性ごとに検出感度指数を設定する。本実施例では、検出感度指数を用いることにより、リソースの性能指標の閾値を、過剰検出状態と未検出状態との間の所望の位置に設定することが可能となる。
 図16は、計算機システムの各構成要素における処理の流れの一例を示すフローチャートである。ストレージ性能情報収集モジュール133は、ステップ1601~1604のループ1を実行する。ループ1の終了条件は、ある時間帯のストレージ装置の構成情報及び性能情報が全て収集されるまで繰り返すという条件でもよいし、特定の時間の間だけ繰り返し実行するという条件でもよい。
(ステップ1602)
 ストレージ性能情報収集モジュール133は、記憶システム構成装置ソフトウェア350を介して、ストレージ装置の構成情報及び性能情報を収集する。
(ステップ1603)
 ストレージ性能情報収集モジュール133は、収集した構成情報をリソース関連表310の対応する関連表に格納する。また、ストレージ性能情報収集モジュール133は、収集した性能情報をリソース性能表320に格納する。
 次に、SANスイッチ性能情報収集モジュール143は、ステップ1605~1608のループ2を実行する。ループ2の終了条件は、ある時間帯のSANスイッチの構成情報及び性能情報が全て収集されるまで繰り返すという条件でもよいし、特定の時間の間だけ繰り返し実行するという条件でもよい。
(ステップ1606)
 SANスイッチ性能情報収集モジュール143は、記憶システム構成装置ソフトウェア350を介して、SANスイッチの構成情報及び性能情報を収集する。
(ステップ1607)
 SANスイッチ性能情報収集モジュール143は、収集した構成情報をリソース関連表310の対応する関連表に格納する。また、SANスイッチ性能情報収集モジュール143は、収集した性能情報をリソース性能表320に格納する。
 次に、ホスト性能情報収集モジュール127は、ステップ1609~1613のループ3を実行する。ループ3の終了条件は、ある時間帯のホストの構成情報及び性能情報が全て収集されるまで繰り返すという条件でもよいし、特定の時間の間だけ繰り返し実行するという条件でもよい。
(ステップ1610)
 ホスト性能情報収集モジュール127は、記憶システム構成装置ソフトウェア350を介して、業務サーバの構成情報及び性能情報を収集する。
(ステップ1611)
 ホスト性能情報収集モジュール127は、ホストの冗長構成に基づいて、収集した構成情報及び性能情報を取捨選択する。例えば、業務サーバとストレージ装置との間で第1の経路(Primaryデータ経路)が使用されている場合、ホスト性能情報収集モジュール127は、第1の経路に関する構成情報及び性能情報を選択する。一方、ある時間帯では、第1の経路で性能問題が発生していたため、第2の経路(Secondaryデータ経路)が使用されていたとする。この場合、ホスト性能情報収集モジュール127は、第2の経路に関する構成情報及び性能情報を選択する。したがって、通常は、第1の経路の構成情報及び性能情報が、以降の度数分布の作成に使用されるが、第1の経路で性能問題が発生している場合には、第2の経路の構成情報及び性能情報が、度数分布の作成に使用されることになる。なお、経路の切替えは、例えば、業務サーバのOSが行い、使用しているリソースの情報は、例えば、業務サーバのOSから取得することができる。
(ステップ1612)
 ホスト性能情報収集モジュール127は、選択した構成情報をリソース関連表310の対応する関連表に格納する。また、ホスト性能情報収集モジュール127は、選択した性能情報をリソース性能表320に格納する。
(ステップ1614)
 度数分布作成モジュール305は、リソース関連表310の各関連表の情報及びリソース性能表320の情報を用いて、第1の度数分布及び第2の度数分布を作成する。ここでの実行される度数分布作成処理の詳細については後述する。
(ステップ1615)
 閾値算出モジュール304は、度数分布作成モジュール305で作成された2つの度数分布と設定情報表330の情報とを用いて、対象リソースの性能値の閾値を算出する。閾値算出モジュール304は、算出した閾値を設定情報表330に格納する。ここで実行される閾値設定処理の詳細については後述する。
(ステップ1616)
 性能判定モジュール306は、閾値算出モジュール304で設定された閾値(すなわち、設定情報表330内の更新された閾値)を用いて、対象リソースの性能判定を行う。ここで実行される性能判定処理の詳細については後述する。
(ステップ1617)
 上記の処理を実行した計算機システムの各構成要素が一定期間待機する。その後、ステップ1601の処理を開始する。
 このように、一定期間ごとに性能情報を収集して、第1及び第2の度数分布を作成し、これら第1及び第2の度数分布を用いてストレージ側のリソースの閾値を設定する。時間の経過とともに性能情報が蓄積され、蓄積された性能情報に応じて第1及び第2の度数分布が作成される。したがって、未検出状態及び過剰検出状態のリスクを左右する要因の変化に追従して、新たな閾値を自動的に設定することができる。また、本実施例では、新たな閾値が設定された後に、その閾値を用いて、ストレージ側のリソースの性能判定を行うことができる。
 次に、図16の度数分布作成処理(ステップ1614)について説明する。図17は、ステップ1614の処理の内容を示すフローチャートである。
 度数分布作成モジュール305は、ステップ1701~1710のループ1を実行する。ループ1は、リソース関連表310から取得したストレージ側の全てのリソースと対象リソースのメトリックの組み合わせに対して実行される。
 度数分布作成モジュール305は、ステップ1702~1709のループ2を実行する。ループ2は、リソース性能表320から取得した全ての時間帯に対して実行される。なお、リソース性能表320から取得した全ての時間帯に対してループ2を実行する代わりに、過去の一部の時間帯に対して実行してもよい。
(ステップ1703)
 度数分布作成モジュール305は、ある対象リソースのある時間帯に関してリソース性能表320から性能値を取得し、その性能値を第1の度数分布に反映させる。
(ステップ1704)
 度数分布作成モジュール305は、リソース関連表310から、当該対象リソースと関連するホスト側(すなわち、業務サーバA220、業務サーバB221)のボリュームを取得する。
(ステップ1705)
 度数分布作成モジュール305は、リソース性能表320から、当該時間帯のホスト側のボリュームの性能値を取得する。度数分布作成モジュール305は、当該時間帯のボリュームの性能値と、性能要件管理表1200の対応するボリュームの性能値の閾値1202とを比較する。度数分布作成モジュール305は、上記の比較結果から、ホスト側で性能問題が発生しているかを判定する。性能問題が発生していない場合は、ループ2を繰り返す(すなわち、別の時間帯に関してステップ1703~1708を実行する)。一方、性能問題が発生している場合は、ステップ1706に進む。
(ステップ1706)
 度数分布作成モジュール305は、根本原因解析(RCA)を実行する。RCAは、問題発生の根本原因を推論するための手法である。本実施例において、度数分布作成モジュール305は、RCAを用いて、当該対象リソースがホスト側の性能問題の原因であるかを判定する。RCAとしては、公知の手法(例えば、特許文献2)を用いることができる。特許文献2では、一例として、リソースにおける閾値の超過をイベントとして定義し、イベントの組み合わせと性能問題の原因候補をルールとして記述し、このルールに基づいて障害の原因を推論する。RCAとして、他の公知の手法が用いられてもよい。
(ステップ1707)
 度数分布作成モジュール305は、ステップ1706において当該対象リソースがホスト側の性能問題の原因であると判定された場合、当該対象リソースの性能値を第2の度数分布に反映させる。なお、ステップ1706において当該対象リソースがホスト側の性能問題の原因でない場合、ループ2を繰り返す(すなわち、別の時間帯に関してステップ1703~1708を実行する)。
 以上の図17のフローによれば、ストレージ側の各リソースに関して、全ての時間帯における性能値の度数分布である第1の度数分布と、ホスト側で性能問題が発生している時間帯における性能値の度数分布である第2の度数分布とが作成される。また、RCAを実行することにより、ホスト側の性能問題の原因となっているリソースの性能値だけを第2の度数分布に反映させることができる。このように、リソース間の性能の依存関係を考慮して、第2の度数分布を作成することができ、以降の閾値設定処理の精度が向上する。
 次に、図16の閾値設定処理(ステップ1615)の例について説明する。図18は、ステップ1615の処理の内容を示すフローチャートである。
(ステップ1801)
 閾値算出モジュール304は、予備警告上限数管理表332を参照し、予備警告上限数が設定されているかを判定する。
(ステップ1802)
 閾値算出モジュールは、予備警告上限数が設定されていない場合、図19の処理を実行する。
(ステップ1803)
 閾値算出モジュールは、予備警告上限数が設定されている場合、図20の処理を実行する。
 図19は、検出感度指数を指定した閾値設定処理のフローチャートである。図21Aは、図19の閾値設定処理を説明する図である。閾値算出モジュール304は、ステップ1901~1913のループ1を実行する。ループ1は、リソース関連表310から取得したストレージ側の全てのリソースと対象リソースのメトリックの組み合わせに対して実行される。
(ステップ1902)
 閾値算出モジュール304は、閾値候補X’に、対象リソースの現在の閾値xを代入する。
(ステップ1903)
 閾値算出モジュール304は、閾値候補X’と第1及び第2の度数分布に基づいて、過剰検出数N1と未検出数N2を算出する。過剰検出数N1は、図14の符号1404の領域に対応し、未検出数N2は、図14の符号1403の領域に対応する。
(ステップ1904)
 閾値算出モジュール304は、以下の式(1)を満たすかを判定する。ここで、yは、対象リソースの検出感度指数である。閾値算出モジュール304は、yの値を性能閾値管理表331(すなわち、性能閾値管理表1300の検出感度指数1304)から取得することができる。
 N1×(1-y)=N2×y   ・・・(1)
 式(1)を満たす場合、ステップ1913へ進み、ループ1を繰り返す。一方、式(1)を満たさない場合、ステップ1905に進む。
(ステップ1905)
 閾値算出モジュール304は、以下の式(2)を満たすかを判定する。
 N1×(1-y)>N2×y   ・・・(2)
 式(2)を満たす場合、ステップ1906~1908へ進む。一方、式(2)を満たさない場合、ステップ1909~1911に進む。以降のステップでは、図21Aに示すように、式(2)の判定に基づいて、閾値候補X’の値を、閾値設定の変化量の最小単位△Xずつ増加させていくか、又は、減少させていくことになる。この処理によって、システム管理者が指定した検出感度指数yを満たす閾値を探索する。
(ステップ1906)
 閾値算出モジュール304は、閾値候補X’に、X’+△Xを代入する。なお、閾値設定の変化量の最小単位△Xは、あらかじめ設定されている。△Xは、システム管理者によって適宜変更されてもよい。
(ステップ1907)
 閾値算出モジュール304は、新しい閾値候補X’(すなわち、ステップ1906で算出されたX’)と第1の及び第2の度数分布に基づいて、過剰検出数N1と未検出数N2を算出する。
(ステップ1908)
 閾値算出モジュールは、以下の式(3)を満たすかを判定する。
 N1×(1-y)≦N2×y   ・・・(3)
 式(3)を満たす場合、ステップ1912へ進む。一方、式(3)を満たさない場合、ステップ1906へ戻る。
(ステップ1909)
 閾値算出モジュール304は、閾値候補X’に、X’-△Xを代入する。
(ステップ1910)
 閾値算出モジュール304は、新しい閾値候補X’(すなわち、ステップ1909で算出されたX’)と第1の及び第2の度数分布に基づいて、過剰検出数N1と未検出数N2を算出する。
(ステップ1911)
 閾値算出モジュール304は、以下の式(4)を満たすかを判定する。
 N1×(1-y)≧N2×y   ・・・(4)
 式(4)を満たす場合、ステップ1912へ進む。一方、式(4)を満たさない場合、ステップ1909へ戻る。
(ステップ1911)
 閾値算出モジュール304は、閾値候補X’で、性能閾値管理表331における対象リソースの閾値(すなわち、性能閾値管理表1300の閾値1303)を更新する。
 上述の閾値設定処理によれば、管理対象の記憶システムのリソースの実際の性能値の分布に従って、指定された検出感度指数を満たす閾値が設定される。検出感度指数は、システム管理者が所望する過剰検出状態と未検出状態のそれぞれに対するリスクの重み付けを反映したものである。したがって、システム管理者が所望する閾値を設定し、その閾値を用いて障害発生を通知することが可能となる。
 図20は、予備警告上限数を指定した閾値設定処理のフローチャートである。図21Bは、図20の閾値設定処理を説明する図である。
(ステップ2001)
 まず、閾値算出モジュール304は、検出感度指数yに1を代入する。検出感度指数y=1は、未検出を全く許容しない状態であり、警告数が最も多い状態である。以下の処理では、この状態から検出感度指数yを徐々に小さくしていくことによって、システム管理者が指定した予備警告上限数より小さい警告数となる閾値を探索する。
(ステップ2001)
 その後、閾値算出モジュール304は、ステップ2002~2015のループ1を実行する。ループ1は、リソース関連表310から取得したストレージ側の全てのリソースと対象リソースのメトリックの組み合わせに対して実行される。
(ステップ2003)
 閾値算出モジュール304は、閾値候補X’に、現在の閾値xを代入する。
(ステップ2004)
 閾値算出モジュール304は、閾値候補X’と第1及び第2の度数分布に基づいて、過剰検出数N1と未検出数N2を算出する。
(ステップ2005)
 閾値算出モジュール304は、以下の式(1)を満たすかを判定する。
 N1×(1-y)=N2×y   ・・・(1)
 式(1)を満たす場合、ステップ2014へ進み、その後、ループ1を繰り返す。一方、式(1)を満たさない場合、ステップ2006に進む。
(ステップ2006)
 閾値算出モジュール304は、以下の式(2)を満たすかを判定する。
 N1×(1-y)>N2×y   ・・・(2)
 式(2)を満たす場合、ステップ2007~2009へ進む。一方、式(2)を満たさない場合、ステップ2010~2012に進む。
(ステップ2007)
 閾値算出モジュール304は、閾値候補X’に、X’+△Xを代入する。ここで、△Xは閾値設定の変化量の最小単位である。なお、△Xは、あらかじめ設定されている。△Xは、システム管理者によって適宜変更されてもよい。
(ステップ2008)
 閾値算出モジュール304は、新しい閾値候補X’(すなわち、ステップ2007で算出されたX’)と第1及び第2の度数分布に基づいて、過剰検出数N1と未検出数N2を算出する。
(ステップ2009)
 閾値算出モジュール304は、以下の式(3)を満たすかを判定する。
 N1×(1-y)≦N2×y   ・・・(3)
 式(3)を満たす場合、ステップ2013へ進む。一方、式(3)を満たさない場合、ステップ2007へ戻る。
(ステップ2010)
 閾値算出モジュール304は、閾値候補X’に、X’-△Xを代入する。
(ステップ2011)
 閾値算出モジュール304は、新しい閾値候補X’(すなわち、ステップ2010で算出されたX’)と第1及び第2の度数分布に基づいて、過剰検出数N1と未検出数N2を算出する。
(ステップ2012)
 閾値算出モジュール304は、以下の式(4)を満たすかを判定する。
 N1×(1-y)≧N2×y   ・・・(4)
 式(4)を満たす場合、ステップ2013へ進む。一方、式(4)を満たさない場合、ステップ2010へ戻る。
(ステップ2013)
 閾値算出モジュール304は、閾値候補X’で、性能閾値管理表331における対象リソースの閾値1303を更新する。
(ステップ2014)
 閾値算出モジュール304は、性能閾値管理表331における対象リソースの閾値と第1及び第2の度数分布を用いて、警告数zを集計する。警告数zは、図21Bの符号2101で示される領域に対応し、当該閾値が設定された場合にシステム管理者が受ける警告数を意味する。閾値算出モジュール304は、ループ1の終了条件を満たすまで、警告数zを集計する。すなわち、ストレージ側のリソースとリソースのメトリックの全ての組み合わせについてzを計算し、それらの総計が最終的に求められる。ループ1終了後、ステップ2016へ進む。
(ステップ2016)
 閾値算出モジュール304は、以下の2つの式i)、ii)のいずれかを満たすかを判定する。ここで、sは、ユーザが指定した予備警告上限数管理表332の予備警告上限数である。2つの式のいずれかを満たす場合、処理を終了する。2つの式のいずれかを満たさない場合、ステップ2017に進む。
 i)z<s
 ii)y=0
(ステップ2017)
 閾値算出モジュール304は、検出感度指数yに、y-△yを代入する。ここで、△yは検出感度指数の変化量の最小単位である。この後、ステップ2002に戻る。
 システム管理者は、性能問題が発生した場合の単位時間当たりの通知数(警告数)に上限を設けたいという要望があるが、上述の閾値設定処理によれば、管理対象の記憶システムのリソースの実際の性能値の分布に従って、指定された予備警告上限数より小さい警告数となる閾値を設定することができる。
 図22は、図16の性能判定処理(ステップ1616)の内容を示すフローチャートである。
 性能判定モジュール306は、ステップ2201~ステップ2204のループ1を実行する。ループ1は、リソース関連表310から取得したストレージ側の全てのリソースと対象リソースのメトリックの組み合わせに対して実行される。
(ステップ2202)
 そして、性能判定モジュール306は、ストレージ側の性能判定対象のリソースに性能問題が発生しているかを判定する。具体的には、性能判定モジュール306は、リソース性能表320の中の性能判定対象のリソースの性能値と、性能閾値管理表331の閾値とを比較する。性能判定モジュール306は、その比較結果から、性能判定対象のリソースに性能問題が発生しているかを判定する。性能問題が発生している場合、ステップ2203に進む。一方、性能問題が発生していない場合、ループ1を繰り返し実行する。
(ステップ2203)
 性能判定モジュール306は、ユーザ通知モジュール303を介して、性能判定対象のリソースに性能問題が発生していることを、システム管理者に通知する。通知方法として、一例として、ユーザ通知モジュール303は、性能判定モジュール306から判定結果を受け取り、GUI表示モジュール301に通知内容を出力する。GUI表示モジュール301は、その通知内容を例えばディスプレイに表示する。
 図23は、ユーザから各種情報が入力されたときのフローチャートである。例えば、GUI表示モジュール301は、性能閾値管理表331の検出感度指数を更新するための画面、性能要件管理表333の閾値を更新するための画面、及び、予備警告上限数管理表332の予備警告上限数を更新するための画面をディスプレイに表示する。
(ステップ2301)
 ユーザ入力モジュール302は、GUI表示モジュール301を介して、上記の画面において入力された情報を受け取る。ユーザ入力モジュール302は、GUI表示モジュール301を介して情報を受け取った場合、ステップ2302に進む。
(ステップ2302)
 ユーザ入力モジュール302は、入力内容に応じて、次のステップに進む。性能閾値管理表331の検出感度指数が入力された場合、ステップ2303に進む。性能要件管理表333の閾値が入力された場合、ステップ2305に進む。予備警告上限数管理表332の予備警告上限数が入力された場合、ステップ2306に進む。
(ステップ2303)
 ユーザ入力モジュール302は、入力された検出感度指数によって性能閾値管理表331を更新する。
(ステップ2304)
 ユーザ入力モジュール302は、予備警告上限数管理表332から予備警告上限数を削除する。
(ステップ2305)
 ユーザ入力モジュール302は、入力された閾値によって性能要件管理表333を更新する。
(ステップ2306)
 ユーザ入力モジュール302は、入力された予備警告上限数によって予備警告上限数管理表332を更新する。
 上述の図23のフローは、図16の閾値設定処理(ステップ1615)より前の任意のタイミングで実行される。上述のフロー後に、閾値設定処理(ステップ1615)が実行され、入力内容(検出感度指数又は予備警告上限数)に応じてリソースの閾値が設定される。
 上述した実施例によれば、未検出状態と過剰検出状態のリスクに対するシステム管理者の意向がトレードオフの関係により一意に決まらない点に着目し、その意向を容易かつ適切に閾値に対して反映する手段を提供することができる。また、システム管理者の意向を機械処理可能な形(検出感度指数又は予備警告上限数)で表現してシステム管理者に入力させ、閾値設定時の制約条件として使用する。したがって、システム管理者の意向が反映された適切な閾値を設定することができる。さらに、未検出状態及び過剰検出状態のリスクを左右する要因の変化に追従して、新たな閾値を自動的に設定することができる。
 また、性能情報収集モジュール340は、ホストとストレージとの間のデータ経路の冗長構成に基づいて、ホストとストレージとの間にある複数のリソース間の関連を示す情報を収集する。例えば、リソース間の関連を示す情報(リソース関連表310)は、その時間帯で使用されていた経路の情報に基づいて選択される。したがって、各時間帯において関係のないリソース間の関連情報を排除することができる。
 また、度数分布作成モジュール305は、根本原因解析(RCA)を実行し、ストレージ側のリソースがホスト側の性能問題の原因であると判定された場合、当該リソースの性能値を第2の度数分布に反映する。ホスト側の性能問題の原因となっているリソースの性能値だけを第2の度数分布に反映させるため、リソース間の性能の依存関係を考慮した閾値の設定処理が可能となる。
 本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。上記実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることもできる。また、ある実施例の構成に他の実施例の構成を加えることもできる。また、各実施例の構成の一部について、他の構成を追加・削除・置換することもできる。
 上述では、ストレージ側の複数のリソースの各々について検出感度指数を設定し、複数のリソースごとに、第1の及び第2の度数分布を用いて、検出感度指数を満たすリソースの性能値の閾値を算出する例を説明したが、この例に限定されない。例えば、ユーザ入力モジュール302は、ストレージ側の複数のリソースの全てに適応される1つの検出感度指数を受付けてもよい。この場合においても、度数分布作成モジュール305は、複数のリソースごとに、第1の度数分布と第2の度数分布を作成し、閾値算出モジュール304は、複数のリソースごとに、第1の度数分布と第2の度数分布を用いて、前記1つの検出感度指数を満たすリソースの性能値の閾値を算出する。
 上述では、システム管理者が検出感度指数を指定し、閾値を設定する例を記載したが、この例に限定されない。別の形態として、ユーザ入力モジュール302が、ストレージ側のリソースの閾値の値を受付けてもよい。この場合、閾値算出モジュール304が、第1の度数分布及び第2の度数分布を用いて、入力された閾値に対応する検出感度指数を算出し、算出された検出感度指数をユーザ通知モジュール303を介して出力してもよい。この構成によれば、システム管理者は、自身が入力した閾値がどの程度の検出感度指数であるかを確認することができる。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 上述の実施例において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100  …ストレージ装置
120  …業務サーバ
130  …第1の性能情報収集サーバ
140  …第2の性能情報収集サーバ
150  …性能管理サーバ(管理計算機)
200  …ストレージ装置
220  …業務サーバA
221  …業務サーバB
240  …SANスイッチA
250  …SANスイッチB
300  …計算機システム性能管理モジュール
301  …GUI表示モジュール
302  …ユーザ入力モジュール
303  …ユーザ通知モジュール
304  …閾値算出モジュール
305  …度数分布作成モジュール
306  …性能判定モジュール
310  …リソース関連表
320  …リソース性能表
330  …設定情報表
340  …性能情報収集モジュール
350  …記憶システム構成装置ソフトウェア

Claims (12)

  1.  ホストと、前記ホストとネットワークを介して接続されているストレージとを備える計算機システムを管理する管理計算機であって、
     過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力モジュールと、
     前記ストレージ側のリソースの性能値の第1の度数分布と、前記ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第2の度数分布を作成する度数分布作成モジュールと、
     前記第1の度数分布と前記第2の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出モジュールと、
    を備える管理計算機。
  2.  請求項1に記載の管理計算機において、
     前記閾値算出モジュールによって算出された前記閾値を設定する設定情報表と、
     前記設定情報表を用いて、前記ストレージ側の前記リソースの性能問題を判定する性能判定モジュールと、
    をさらに備えることを特徴とする管理計算機。
  3.  請求項1に記載の管理計算機において、
     前記入力モジュールは、前記ストレージ側の複数のリソースごとに前記検出感度指数を受付けるか、又は、前記複数のリソースの全てに適応される1つの前記検出感度指数を受付け、
     前記度数分布作成モジュールは、前記複数のリソースごとに、前記第1の度数分布と前記第2の度数分布を作成し、
     前記閾値算出モジュールは、前記複数のリソースごとに、前記第1の度数分布と前記第2の度数分布を用いて、前記検出感度指数を満たす前記リソースの前記性能値の閾値を算出することを特徴とする管理計算機。
  4.  請求項1に記載の管理計算機において、
     前記ホストと前記ストレージとの間のデータ経路の冗長構成に基づいて、前記ホストと前記ストレージとの間にある複数のリソース間の関連を示す情報を収集する性能情報収集モジュールをさらに備えることを特徴とする管理計算機。
  5.  請求項1に記載の管理計算機において、
     前記度数分布作成モジュールは、根本原因解析(Root cause analysis)を実行し、前記ストレージ側の前記リソースが前記ホスト側の性能問題の原因であると判定された場合、当該リソースの性能値を前記第2の度数分布に反映することを特徴とする管理計算機。
  6.  請求項1に記載の管理計算機において、
     前記入力モジュールは、予備警告上限数の入力を受付けるようにさらに構成され、
     前記閾値算出モジュールは、前記第1の度数分布と前記第2の度数分布を用いて、前記予備警告上限数より小さい警告数となる前記リソースの前記性能値の閾値を算出することを特徴とする管理計算機。
  7.  ホストと、前記ホストとネットワークを介して接続されているストレージとを備える計算機システムにおいて、前記ストレージ側のリソースの閾値を設定する閾値設定方法であって、
     入力モジュールによって、過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力ステップと、
     度数分布作成モジュールによって、前記ストレージ側の前記リソースの性能値の第1の度数分布と、前記ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第2の度数分布とを作成する度数分布作成ステップと、
     閾値算出モジュールによって、前記第1の度数分布と前記第2の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出ステップと、
    を含む閾値設定方法。
  8.  請求項7に記載の閾値設定方法において、
     前記閾値算出モジュールによって、前記閾値算出ステップによって算出された前記閾値を設定情報表に設定するステップと、
     性能判定モジュールによって、前記設定情報表を用いて、前記ストレージ側の前記リソースの性能問題を判定するステップと、
    をさらに含むことを特徴とする閾値設定方法。
  9.  請求項7に記載の閾値設定方法において、
     前記入力ステップは、前記ストレージ側の複数のリソースごとに前記検出感度指数を受付けるか、又は、前記複数のリソースの全てに適応される1つの前記検出感度指数を受付けることを含み、
     前記度数分布作成ステップは、前記複数のリソースごとに、前記第1の度数分布と前記第2の度数分布を作成することを含み、
     前記閾値算出ステップは、前記複数のリソースごとに、前記第1の度数分布と前記第2の度数分布を用いて、前記検出感度指数を満たす前記リソースの前記性能値の閾値を算出することを含むことを特徴とする閾値設定方法。
  10.  請求項7に記載の閾値設定方法において、
     性能情報収集モジュールによって、前記ホストと前記ストレージとの間のデータ経路の冗長構成を考慮して、前記ホストと前記ストレージとの間にある複数のリソース間の関連を示す情報を収集するステップをさらに含むことを特徴とする閾値設定方法。
  11.  請求項7に記載の閾値設定方法において、
     前記度数分布作成ステップは、根本原因解析(Root cause analysis)を実行し、前記ストレージ側の前記リソースが前記ホスト側の性能問題の原因であると判定された場合、当該リソースの性能値を前記第2の度数分布に反映することを含むことを特徴とする閾値設定方法。
  12.  請求項7に記載の閾値設定方法において、
     前記入力ステップは、予備警告上限数の入力を受付けることをさらに含み、
     前記閾値算出ステップは、前記第1の度数分布と前記第2の度数分布を用いて、前記予備警告上限数より小さい警告数となる前記リソースの前記性能値の閾値を算出することを含むことを特徴とする閾値設定方法。
PCT/JP2015/079439 2015-10-19 2015-10-19 管理計算機及び閾値設定方法 WO2017068623A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/079439 WO2017068623A1 (ja) 2015-10-19 2015-10-19 管理計算機及び閾値設定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/079439 WO2017068623A1 (ja) 2015-10-19 2015-10-19 管理計算機及び閾値設定方法

Publications (1)

Publication Number Publication Date
WO2017068623A1 true WO2017068623A1 (ja) 2017-04-27

Family

ID=58557960

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/079439 WO2017068623A1 (ja) 2015-10-19 2015-10-19 管理計算機及び閾値設定方法

Country Status (1)

Country Link
WO (1) WO2017068623A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7132386B1 (ja) 2021-03-31 2022-09-06 株式会社日立製作所 ストレージシステム及びストレージシステムの負荷分散方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129134A (ja) * 2007-11-22 2009-06-11 Hitachi Ltd ストレージ管理システム、性能監視方法及び管理サーバ
WO2013103005A1 (ja) * 2012-01-05 2013-07-11 株式会社日立製作所 計算機システムの管理装置及び管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129134A (ja) * 2007-11-22 2009-06-11 Hitachi Ltd ストレージ管理システム、性能監視方法及び管理サーバ
WO2013103005A1 (ja) * 2012-01-05 2013-07-11 株式会社日立製作所 計算機システムの管理装置及び管理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7132386B1 (ja) 2021-03-31 2022-09-06 株式会社日立製作所 ストレージシステム及びストレージシステムの負荷分散方法
JP2022157664A (ja) * 2021-03-31 2022-10-14 株式会社日立製作所 ストレージシステム及びストレージシステムの負荷分散方法

Similar Documents

Publication Publication Date Title
US9851911B1 (en) Dynamic distribution of replicated data
US10936240B2 (en) Using merged snapshots to increase operational efficiency for network caching based disaster recovery
US20220166850A1 (en) Adaptive computation and faster computer operation
US9864517B2 (en) Actively responding to data storage traffic
US9652271B2 (en) Autonomously managed virtual machine anti-affinity rules in cloud computing environments
JP4857818B2 (ja) ストレージ管理方法およびストレージ管理サーバ
US9146793B2 (en) Management system and management method
JP5748932B2 (ja) 計算機システム及び非同期リモートレプリケーションの分析を支援する方法
JP5222876B2 (ja) 計算機システムにおけるシステム管理方法、及び管理システム
US10366105B2 (en) Replicating structured query language (SQL) in a heterogeneous replication environment
JP6190468B2 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
US20200169614A1 (en) Function Based Dynamic Traffic Management for Network Services
JP6235156B2 (ja) 計算機システムおよび負荷平準化プログラム
US20180267879A1 (en) Management computer, performance monitoring method, and computer system
US20220191226A1 (en) Aggregating results from multiple anomaly detection engines
US10019182B2 (en) Management system and management method of computer system
JP6823626B2 (ja) データベース管理システム及び方法
US11134121B2 (en) Method and system for recovering data in distributed computing system
WO2017068623A1 (ja) 管理計算機及び閾値設定方法
US20170228383A1 (en) Active archive bridge
US9870152B2 (en) Management system and management method for managing data units constituting schemas of a database
US10310889B1 (en) Data statistics service
US11853317B1 (en) Creating replicas using queries to a time series database
JP6630442B2 (ja) 適切なitリソース上にアプリケーションを配備するための管理コンピュータ及び非一時的なコンピュータ可読媒体
KR101887741B1 (ko) 적응적 블록 캐시 운용 방법 및 이를 적용한 dbms

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15906631

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15906631

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP