WO2015136624A1 - アプリケーション性能監視方法および装置 - Google Patents

アプリケーション性能監視方法および装置 Download PDF

Info

Publication number
WO2015136624A1
WO2015136624A1 PCT/JP2014/056358 JP2014056358W WO2015136624A1 WO 2015136624 A1 WO2015136624 A1 WO 2015136624A1 JP 2014056358 W JP2014056358 W JP 2014056358W WO 2015136624 A1 WO2015136624 A1 WO 2015136624A1
Authority
WO
WIPO (PCT)
Prior art keywords
excess
time
request
period
unit time
Prior art date
Application number
PCT/JP2014/056358
Other languages
English (en)
French (fr)
Inventor
小林 恵美子
清美 和田
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US14/787,519 priority Critical patent/US20160080229A1/en
Priority to PCT/JP2014/056358 priority patent/WO2015136624A1/ja
Publication of WO2015136624A1 publication Critical patent/WO2015136624A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/0864Round trip delays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Definitions

  • the present invention relates to an application performance monitoring method and apparatus for monitoring the performance of an application system.
  • Patent Document 1 discloses a method for detecting a response time in comparison with a baseline as a reference value in real time every time a request is transmitted.
  • Patent Document 2 discloses a method of extracting periodicity as a performance trend and setting a prediction according to the periodicity as a reference value.
  • Patent Document 1 records a response time for each request in real time, and performs an alarm notification when a reference value is exceeded.
  • a tendency of exceeding the reference value there are cases where some requests exceed the reference value from time to time, not only when the reference value is exceeded all at once, but also from time to time. Even if it exceeds the reference value that occurs from time to time, it is not a problem of the system, and it may happen as a noise. Even in such a case, if the alert notification is performed as in the technology disclosed in Patent Document 1, there is a possibility that the burden of the alert investigation work by the administrator becomes large.
  • an object of the present invention is to monitor a response time of access to an application, and to notify an administrator of an alert when there is a possibility of a problem, thereby reducing a workload of the administrator, and a system performance monitoring method Is to provide a device.
  • the present invention relates to a system performance monitoring method for monitoring the performance of a server that provides an application service in response to a request from a terminal device by a computer, and a response time measuring step of measuring a response time of a request from a terminal to the application service of the server And a reference value excess monitoring process that extracts requests (excess requests) whose response time exceeds a specified reference value within a specified monitoring period, and identifies the time zone when the excess request occurs, and the time when the excess request occurs
  • This can be realized as a system performance monitoring method including a periodicity determination step of determining the periodicity of excess requests based on the time interval between bands.
  • the present invention can realize the above method as a system performance monitoring apparatus by a computer program.
  • the administrator's workload can be reduced by notifying the administrator of an alert.
  • Example 1 It is a figure which shows the hardware and logical structure of the computer system in Example 1 of this invention. It is a figure which shows the structure of the functional module of the performance monitoring program in Example 1.
  • FIG. It is a figure which shows the module structure of the response time measurement agent in Example 1.
  • FIG. It is a figure which shows the flowchart of the performance monitoring program in Example 1.
  • FIG. It is a figure which shows the flowchart of the reference value excess monitoring process of the performance monitoring program in Example 1.
  • FIG. It is a figure which shows the table structure of the request management table in Example 1.
  • FIG. It is a figure which shows the table structure of the excess data management table in Example 1.
  • FIG. It is a figure which shows the table structure of the judgment criteria management table in Example 1.
  • FIG. 6 is a diagram illustrating an example of an output screen according to the first embodiment. It is a figure which shows the table structure of the structure information management table in Example 4. FIG. It is a figure which shows the flowchart of the alert determination process added to Example 1 in Example 5.
  • FIG. 1 is a hardware and logical configuration diagram of a computer system according to an embodiment of the present invention.
  • the system manages a performance monitoring server 101 that monitors response performance of a response to a request to an application, a measurement server 102 that measures a response response time, a Web server 103 that executes a Web application, and manages application data.
  • Each of the Web server 103, the database server 104, and the storage device 105 may be composed of a plurality of units.
  • the terminal 106 and the Web server 103 are connected by a network 130, and the measurement server 102 is connected to a switch 107 on the network.
  • the Web server 103, the database server 104, and the storage device 105 are connected by a back-end network 131.
  • the performance monitoring server 101 is connected to each server via the management network 132.
  • the performance monitoring server 101 includes at least one processing device (CPU) 110, a memory 111, a secondary storage device 112 such as a hard disk, an input / output interface 113 that controls input from a keyboard and mouse and output information to a display. And a network interface 114 connected to the management network 132.
  • CPU processing device
  • memory 111 a main memory
  • secondary storage device 112 such as a hard disk
  • input / output interface 113 that controls input from a keyboard and mouse and output information to a display.
  • a network interface 114 connected to the management network 132.
  • the terminal 106 has an input / output interface (not shown in the figure) that controls input from the keyboard and mouse and output to the display.
  • the performance monitoring program 120 is loaded on the memory 111 of the performance monitoring server 101 and executed by the CPU 110.
  • the secondary storage device 112 stores information on the table 122 used by the performance monitoring program 120.
  • the measurement server 102 executes a response time measurement agent 121 that measures the response time of the response.
  • an HTTP (HyperText Transfer Protocol) server program 123, an application program 125, and an application server (hereinafter referred to as an AP server) program 124 that is the basis thereof are executed.
  • a database management system 126 is executed.
  • Each terminal 106 executes a Web browser 127.
  • FIG. 2 shows a functional module configuration of the performance monitoring program 120.
  • Response time collection unit 201 that collects the request response time from the measurement server 102, reference value excess monitoring unit 202 that monitors the collected response time, and periodicity of the response occurrence time for a request whose response time exceeds the reference value (excess request)
  • a periodicity determination unit 203 for determining the alert
  • an alert determination unit 204 for determining the alert transmission from the result of the periodicity determination
  • an alert output unit 205 for adding and outputting information to the alert
  • System performance collection unit 206 that collects system performance information such as the usage rate of resources used by the system, a timer 207 for starting a module for periodicity determination processing, a performance information output unit 208 that outputs performance information such as a response time graph, and a user
  • the reference value is a specific time set by the administrator or the system as a threshold value, or a baseline value based on past results automatically created by the system.
  • the setting of the baseline may be realized by the method disclosed in Patent Document 1.
  • the reference value is set for each service, the collected response time data is also managed for each service, and compared with the reference value set for the service.
  • the system performance collection unit 206 collects items such as resource usage rates of the Web server 103 and the database server 104 from the performance monitoring agents of both the servers 103 and 104. As another collecting method, an agent may not be arranged in each server. In this case, the system performance collecting unit 206 acquires a request by transmitting it to each server.
  • a table 122 for storing information in the performance monitoring program 120 includes a response time data accumulation table 210 that records response times of responses to requests to applications, and a request management table that records attributes of requests that exceed a reference value. 211, an excess data management table 212 for managing excess requests collectively for each predetermined time width, a judgment criterion management table 213 for managing criteria for judging periodicity, and managing periodic data based on judgment results It consists of a periodicity data management table 214, an alert criteria management table 215 that manages criteria for determining alert levels, and a system performance data storage table 216 that records system performance information of the Web server 103 and database server 104.
  • FIG. 3 shows a functional module configuration of the response time measurement agent 121 executed by the measurement server 102.
  • a packet acquisition processing unit 301 that acquires a packet from the mirror port of the switch 107, a packet analysis processing unit 302 that analyzes a response corresponding to an HTTP request from the acquired packet to the Web server 103, and a response time calculation that calculates a response time from the analysis result
  • the processing unit 303 includes a data transmission processing unit 304 that transmits a calculation result to the performance monitoring server 101, and a data storage processing unit 305 that records access detailed information 306 such as request and response attributes.
  • the packet acquisition processing unit 301 acquires transmission / reception packets to the port to which the monitoring target Web server 103 is connected.
  • the packet analysis processing unit 302 identifies a specific HTTP request from a packet addressed to the Web server 103 in accordance with the service definition 307 set by the performance monitoring server 101, records attributes such as header information, and transmits from the Web server 103.
  • the HTTP response is identified from the received packet and matched.
  • the service definition 307 defines a URL path, a URL query, and the like to be monitored as a service, which is set by an administrator and managed by the performance monitoring program 120.
  • the performance monitoring server 101 transmits the changed information to the response time monitoring agent 121.
  • the response time calculation processing unit 303 calculates the response time from the difference between the specified response packet acquisition time and the request packet acquisition time.
  • the processing of the response time measurement agent 121 may be realized by the stream data processing system disclosed in Patent Document 1.
  • FIG. 4 shows a flowchart of the performance monitoring program 120.
  • the performance monitoring program 120 collects measurement results from the response time measurement agent 121 (S401).
  • the transmission target from the response time measurement agent 121 may be a result of collecting every measurement or a certain period (for example, one second).
  • the reference value excess monitoring process S402 is called.
  • the excess data periodicity judgment process S404 is called after a certain period.
  • the alert determination process S406 is called. After the alert determination process, or when there is no reference value excess data or when the periodicity or tendency of occurrence of excess data cannot be specified, the process is terminated.
  • FIG. 5 shows a flowchart of the reference value excess monitoring process (S402 in FIG. 4) in the performance monitoring program.
  • the collected response time data is compared with a reference value (S501).
  • S501 a reference value
  • S502 the response time exceeds the reference value
  • S503 the excess data is registered in the excess data management table in order to manage the excess data collectively in a predetermined time width (unit time zone).
  • a unit time zone record At that time, it is determined whether or not a unit time zone record has already been registered (S504). If there is no registration, a new record is created and information on excess data is registered (S510).
  • a timer for notifying the elapse of a specific time is set (S511), and the time set in the timer is set in the criterion management table 213 by the administrator or the system and selected
  • the value of the “analysis period” (802 in FIG. 8) of the determined standard corresponds to this.
  • the request identifier ID is added to the excess request ID field 703 of the excess data management table 212 (S505), the excess request number field 704 is updated (S506), and the reference value The average difference 705 is recalculated and updated (S507).
  • the number of excess requests is a certain number or more, or whether the difference from the reference value is a certain value or more (S508).
  • the reference value here is a value set in advance by the administrator or the system.
  • the alert output process is called with the level set to 1 (S509).
  • an alert notification including the level and message information is created according to the set level, and notified in a method predefined by the administrator or the system. For example, there is a method of outputting as an event or sending mail. The same applies to the alert output processing called in the subsequent flowcharts.
  • FIG. 6 shows the configuration of the request management table 211 managed by the performance monitoring program 120.
  • This table is created for each Web application URL, for each page that includes multiple URLs, or for each transaction that includes a series of processing URLs.
  • this table is created for each URL.
  • the request management table registers information of a request whose response time has exceeded a reference value.
  • a request ID field 601 uniquely assigned to a request to be registered, a response time field 602, a URL path field 603 that is an attribute of the request, a URL
  • the query field 604 includes a response code field 605 that is a response attribute, a transfer data amount field 606, a request time field 607 that is time information, and a response time field 608.
  • the records in this table created for each URL may be further classified into response tables by response codes.
  • the response code may be classified by a three-digit number such as the 100s and 200s, or a classification of whether or not an error exists such as a 400 or 500s error and a code other than the error.
  • FIG. 7 shows the configuration of the excess data management table 212 managed by the performance monitoring program 120.
  • the excess data management table 212 manages responses exceeding the reference value by dividing them in unit time zones.
  • the time width of the unit time zone is set in the judgment criterion management table 213 of FIG. 8 by the administrator or the system, and is set as the selected reference time width 803. In the example of FIG. 7, 1 minute is adopted as the unit time width. Yes.
  • An excess request ID field 703 to be registered an excess request number field 704 for counting and registering the number of excess requests, and an average difference field 705 for recording a difference from the reference value of the average value of response times of requests.
  • the start time of the time zone field 702 indicates a time after the time including the time, and the end time indicates a time less than the time not including the time.
  • FIG. 8 shows the configuration of the criterion management table 213 managed by the performance monitoring program 120.
  • the determination criterion management table 213 includes a reference number field B # 801 for uniquely identifying a reference, an analysis period field 802 that is a period for determining periodicity and a trend, and a time width field 803 of a unit time zone. Is done. A value obtained by dividing the analysis period by the time width is the number of unit time zones included in the analysis target period. The value of this table can be changed or a new reference can be added from the input / output I / F 113 of the performance monitoring server 101 as appropriate.
  • the performance monitoring program 120 can change the reference in use and reselect the one having a long time width and a short duration. For example, when a field with the reference number 801 of the criterion management table 213 is selected to be “1” and an analysis is performed with a time width of 1 minute, an average duration of 5 minutes is obtained. The field of the reference number 801 is changed to the reference of “3”. Along with this change, the analysis period is also changed, and the timer that is set when a subsequent excess request is detected becomes one day.
  • FIG. 9 is a diagram showing a correspondence with information registered in the management table when a request exceeding the reference value is detected.
  • the vertical axis represents request response time, and the horizontal axis represents time.
  • a black circle 901 in the graph is a plot of the response time required for response processing of one request.
  • both the threshold value and the baseline are shown as the reference value, but either one of the reference values may be used.
  • Data that exceeds the reference value is excess data, and is registered in the request management table 211.
  • the time width 902 is 1 minute. In the time zone 902 from 10:00 to 10:01, responses to three excess requests are generated and registered in the excess data management table 212.
  • the average value of 10 seconds of the time 903 calculated from each response time as the difference from the threshold value is the average of the rows where T # is 1 in the excess data management table 212 Registered in the difference field 705.
  • FIG. 10 shows a flowchart of the excess data periodicity determination process (S404) in the performance monitoring program 120. This process is called by the timer timeout set by the reference value excess monitoring process.
  • a unit time including a time-out time after the unit time period is calculated by calculating a time that is backed by the analysis period from the time-out time, determining which unit time period of the excess data management table 212 includes the calculated time. All excess requests included in the band are specified (S1001) and read (S1002). Thereafter, records are extracted in order from the oldest time zone and registered in the temporary storage table of FIG. 11 (S1003).
  • the difference between the start time of each record registered in the temporary storage table and the start time of the next record is calculated by the number of time widths of the unit time zone. Calculate (S1009). For example, if the start time of the previous record is 11:00 and the start time of the next record is 11:03, the interval is three times the time width.
  • Another method is to calculate the difference between the end time of the previous record and the start time of the next record as the interval of the excess occurrence time period by the number of time widths. In that case, when the end time of the previous record is 11:01 and the start time of the next record is 11:03, the interval is two times a time width.
  • a portion having the same calculated interval is extracted (S1010), and if the interval is the same, it is determined that there is periodicity and is registered in the periodicity data management table (S1011). Whether the interval is the same or not may be determined as periodic only if all of the intervals of all analysis periods temporarily stored are the same or if there is a certain number of consecutive intervals. . Further, the intervals may not be completely coincident, and the number of unit time widths of the intervals may have a margin of ⁇ - ⁇ (for example, ⁇ 1). In the periodicity data management table 214 shown in FIG.
  • the start time and end time of the analysis period 1202 the interval 1203 calculated as the period, and the maximum, minimum, and average of the continuous number field 1103 of the temporary storage table as the duration width 1204, As the average difference 1205, the maximum, minimum, and average of the average difference field 1104 of the temporary storage table are registered.
  • FIG. 11A shows the configuration of the temporary storage table. This table is temporarily used to grasp the continuity of the time zone in the periodicity determination process. This table includes a number field 1101 for uniquely identifying data, a unit time zone field 1102, a continuous number field 1103 for counting the number of consecutive unit time zones, and a difference from a reference value of excess data in each continuous time zone.
  • FIG. 11B shows a mechanism for calculating data stored in the temporary storage table.
  • FIG. 12 shows the structure of the periodicity data management table.
  • This table includes a data number field 1201 for uniquely identifying data, an analysis period field 1202 indicating the start time and end time of the analyzed period, a period field 1203 indicating an interval by the number of time widths, and a continuous time width.
  • a duration width field 1204 indicating the maximum, minimum, and average of each duration as the number of unit time widths, an average difference field 1205 indicating the maximum, minimum, and average of each average difference, and the maximum, minimum, and average of the number of excess requests.
  • It includes an excess request number field 1206 to indicate, a current period field 1207 that indicates an excess time zone number, and a determination reference number field 1208 that indicates a reference for an analysis period and a time width of determination processing.
  • FIG. 13 shows a flowchart of the alert determination process (S406) in the performance monitoring program.
  • Data of the record number newly registered in the periodicity data management table 214 delivered at the time of calling is read (S1301).
  • a search is made as to whether there is a record that matches the record criteria (each row of the criteria management table 213 in FIG. 8) in the records registered in the periodicity data management table 214 (S1302). Since the periodicity judgment process is performed in the analysis period starting from the response occurrence time for the first excess request in the unit time zone, the periodicity is judged when the time interval between adjacent time zones where the excess request has occurred is small The above analysis periods may overlap. If there is a record with the same criterion (S1303), the latest record with the latest end time is read out in the record in which the analysis period is not included in the analysis period of the new record (S1304).
  • the data of the new registration record and the latest record are compared, and it is determined whether there is an item that matches the condition 1402 managed by the alert reference management table 215 of FIG. 14 (S1305). If there is a matching item, the level value of the corresponding condition is set as the alert level (S1306). If there are multiple items that match and if the levels are different, the level with the larger number is set.
  • level 1 is set as the alert level (S1307). Then, an alert output process is called (S1308), and a level alert is output.
  • FIG. 14 shows the configuration of the alert criterion management table 215.
  • This table is a table for managing conditions for assigning alert levels, a number field 1401 for uniquely identifying a record, an alert target item and a level assigning condition field 1402 comprising the conditions as condition for assigning a level, an alert level field 1403.
  • the alert level indicates the problem level. The greater the level value, the higher the urgency. For example, the information provision level is 1, the attention level is 2, and the warning level is 3.
  • alert target items in FIG. 14, for example, a period, an average duration, an average difference, an average excess request count, and an occurrence frequency are defined. As described above, it is possible to determine whether there is a period for the data exceeding the reference value that occurs from time to time, and to notify an appropriate alert in accordance with the change in the period or the trend.
  • FIG. 15 shows an example of a screen output by the performance monitoring program 120.
  • the URL of the Web application is defined and managed as a service, and a performance graph 1501 for each service is output in the upper part.
  • performance indices such as response time, throughput, and error rate
  • response time is output as a scatter plot of time on the horizontal axis and response time on the vertical axis.
  • the excess data with respect to the reference value can be recognized by the administrator by showing a reference value line. When a period pattern of excess data is extracted, a band indicating the period is output on the graph. By doing so, the administrator can see that the band-like data has periodicity.
  • the middle stage 1502 outputs the attribute of the request that is the excess data indicated by the response time graph 1501.
  • a part or all of the data held in the request management table 211 is output.
  • An event list is output to the lower row 1503.
  • An alert that detects a change in cycle or trend is output as an event, and for example, an alert that the duration has become longer than before can be confirmed.
  • the analysis period is not a period in which a timer is set from the detection of an excess request, but a period retroactive to the past from the detection of the excess request.
  • the timer In the reference value excess monitoring process of FIG. 5, in determining whether there is a record in the corresponding time zone of the excess data management table (S504), if there is no record in the corresponding time zone and a new record is added to the table, the timer The periodicity judgment process is called without setting. In the periodicity determination process, it is determined whether there is a tendency of occurrence of excess requests retroactively, not after the analysis period has elapsed, from the time when the periodicity is called. If a record for the corresponding time zone already exists in S504, the calling process is not performed because the periodicity determination processing for the same time zone has already been performed. The periodicity determination process and the alert determination process are as described above.
  • performance monitoring server 101 and the measurement server 102 may be the same server. Further, the performance monitoring program 120 and the response time measurement agent 121 may be integrated into one program.
  • the periodicity is determined from the interval of the time zone where the excess request exists, and the alert level is determined based on the change.
  • the second embodiment shows a method for determining an alert level not by periodicity but by a change in the frequency of occurrence of requests exceeding the reference value.
  • steps S1009 to S1011 in FIG. 10 it is determined whether there is a period from the interval of the time width of occurrence of excess.
  • the ratio of the number of unit time zones in excess to the number of all unit time zones in the analysis period is calculated and used as the occurrence frequency. Each consecutive unit time zone is counted one by one. Taking FIG.
  • the frequency is 5/60 (0.08). If there is an excess of 10 time widths in the next analysis, the frequency will be 10/60 (0.17).
  • the occurrence frequency is registered as a reference in the record # 5 in the number field 1401, and when the frequency matches the standard, that is, when the frequency becomes higher than the previous level, the alert is leveled. 3 is output. As described above, it is possible to determine a change in the occurrence frequency as a tendency of excess occurrence and notify an appropriate alert.
  • Example 3 is another example of the periodicity determination process, and shows a method of using a well-known Fourier transform process to specify whether or not there is periodicity.
  • the response time data generated irregularly is not processed as it is, but is exceeded for each time width obtained as a result of the reference value excess monitoring process of FIG. Based on binary information with and without request.
  • time-series data is created for the analysis period, where 1 is the time zone in which an excess request is made and 0 is the time zone in which there is no excess request.
  • the frequency cycle included in the analysis period is extracted by performing Fourier transform processing on the created data. When a plurality of frequencies can be extracted, each is registered as periodicity data.
  • the subsequent processing is the same as in the first embodiment.
  • FIG. 16 shows a configuration information management table for managing system components.
  • the component 1601 includes a host that executes the HTTP server program 123, the AP server program 124, and the database management system 126, the storage device 105 that stores database data, a connection pool to the database server as a shared resource, and a storage device. There is a path to A component is registered and managed for each service 1602.
  • Logs can be collected by placing an agent on the target host and periodically searching for logs and sending them to the performance monitoring server, or by setting up a log management server and the host sending system logs to the log management server for performance monitoring.
  • the server acquires a log relating to configuration change from the log management server.
  • the configuration change includes update of the host OS and server program, migration to another physical machine when the host is a virtual machine, change of hardware specifications, and the like.
  • the time before the analysis period is calculated in step S1001.
  • the constituent elements of the target service are read from the configuration information management table of FIG. 16 to identify the host. Search from the log that manages the log information of the host and check whether the configuration has been changed between the time before the analysis period and the current time. If not, the subsequent processing is the same as in the first embodiment.
  • the latest time of the configuration change log is identified.
  • the records in the latest time zone are read in order in the time zone after the latest configuration change time. The subsequent processing is the same as in the first embodiment.
  • step S1304 when reading the latest record in step S1304, the log is searched to confirm whether the configuration has been changed between the current analysis period and the latest record analysis period. To do. If the configuration has not been changed, the subsequent processing is the same as in the first embodiment. If the configuration change log can be identified, since the latest record is before the configuration change, level 1 is set without comparison (S1307), and the process ends.
  • the performance monitoring program 120 sets the monitoring items for each component, monitors the information of the target host, collects it by the system performance collection module, and stores it in the system performance data accumulation table 216. save. For the monitoring item of the identified component, performance data for the current analysis period and the previous analysis period are extracted (S1702).
  • step S1305 in FIG. 13 if there is no record that matches the condition with the alarm, only the data of the current analysis period is used for the time period of the obtained period. In the performance item, it is checked whether there is an item that is similarly deteriorated (for example, the usage rate is increased). If there is an item, item information is added to the alert information.
  • a method for adding the number of accesses to the judgment conditions is shown.
  • the number of accesses including the request without a response is counted and periodically transmitted to the performance monitoring server.
  • the performance monitoring server stores the collected number of accesses in a database.
  • the number of accesses to the service during the analysis period is read from the accumulated data. It is determined whether the number of accesses increases during the same time period. Similarly, in the previous analysis period, it is determined whether the number of accesses during the same time period has increased.
  • the level is set to 1 and information on the increase in the number of accesses is used as an alert. to add. If it has not increased this time, add information to the alert without changing the number of accesses. If it has not increased the previous time but has increased this time, the information on the increase in the number of accesses is added to the alert without changing the level.
  • an appropriate alert can be output by associating the tendency of exceeding the response time of the request with the tendency of the system performance and the tendency of the number of accesses.
  • Performance monitoring server 101: Performance monitoring server, 102: Measurement server, 103: Web server, 104: Database server, 105: Storage device, 106: Terminal, 107: Network switch, 120: Performance monitoring program, 121: Response time measurement agent, 123: HTTP server program, 124: application server program, 125: application program, 126: database management system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

アプリケーションへのアクセスの応答時間を監視し、問題の可能性ある場合に管理者にアラートを通知することで、管理者の作業負荷を軽減する。 アプリケーションの応答時間を計測して応答時間が基準値を超過するリクエストを抽出し、所定の時間幅ごとに超過するリクエストを集計する。そして、超過リクエストが存在する隣接した時間帯の間隔を算出して、超過発生の周期的な傾向を判断する。また、傾向に応じたレベルのアラートを出力する。

Description

アプリケーション性能監視方法および装置
 本発明はアプリケーションシステムの性能を監視するアプリケーション性能監視方法および装置に関するものである。
 従来、Webアプリケーションの性能監視においては、問題の可能性がある性能低下の現象を検知し、アラート等により管理者に異常を通知する方法が実施されている。性能指標の一つにアプリケーションの応答時間があり、リクエストに対するレスポンス時刻から応答時間を記録し、基準値と比較して超過の場合に性能低下として検知する監視方法がある。リクエストが送信される度にリアルタイムに応答時間を基準値であるベースラインと比較して検出する方法が特許文献1に示されている。
 また性能監視のためのベースライン作成においては、性能傾向として周期性を抽出し、周期性に従って予測を立て基準値とする方法が特許文献2に示されている。
国際公開第2013/186870号 特開2013-214171号公報
 特許文献1に開示される技術は、リアルタイムにリクエスト毎の応答時間を記録し、基準値を超過した場合にアラーム通知を行う。しかし、基準値超過の傾向として、全リクエストがある時点以降、一斉に基準値を超過する場合だけでなく、時々、いくつかのリクエストが基準値を超過する場合がある。時々発生する基準値超過であっても、システムの問題ではなく、たまたまノイズ的に発生する場合もある。そうした場合にまで、特許文献1の開示技術のようにアラート通知を行うと管理者によるアラートの調査作業の負担が大きくなる可能性がある。よって監視精度を向上し、性能の傾向から問題の可能性が高いかどうかを判断して、可能性が低い場合にはアラートを通知しないようにして管理者の作業負荷を減らす必要がある。 
 性能監視においては、傾向の一つとして、従来の特許文献2に開示される技術のように周期性に着目し、時系列の定期的な性能データを用いて傾向を抽出することは可能であるが、非定期に発生する大量の性能データから傾向を抽出するのは難しい。
 そこで、本発明の目的は、アプリケーションへのアクセスの応答時間を監視し、問題の可能性がある場合に管理者にアラートを通知することで、管理者の作業負荷を軽減するシステム性能監視方法および装置を提供することである。
 本発明は、端末装置からのリクエストに応じてアプリケーションサービスを提供するサーバの性能をコンピュータにより監視するシステム性能監視方法において、サーバのアプリケーションサービスに対する端末からのリクエストの応答時間を計測する応答時間計測工程と、所定の監視期間内で応答時間が所定の基準値を超過するリクエスト(超過リクエスト)を抽出し、超過リクエストが発生した時間帯を特定する基準値超過監視工程と、超過リクエストが発生した時間帯同士の時間間隔により超過リクエストの周期性を判断する周期性判断工程とを有するシステム性能監視方法として実現できる。
 また、本発明は、上記の方法をコンピュータプログラムでシステム性能監視装置として実現することができる。
 本発明によれば、システム性能に問題の可能性がある場合に管理者にアラートを通知することで、管理者の作業負荷を軽減することができる。
本発明の実施例1におけるコンピュータシステムのハードウェアおよび論理構成を示す図である。 実施例1における性能監視プログラムの機能モジュールの構成を示す図である。 実施例1における応答時間計測エージェントのモジュール構成を示す図である。 実施例1における性能監視プログラムのフローチャートを示す図である。 実施例1における性能監視プログラムの基準値超過監視処理のフローチャートを示す図である。 実施例1におけるリクエスト管理テーブルのテーブル構成を示す図である。 実施例1における超過データ管理テーブルのテーブル構成を示す図である。 実施例1における判断基準管理テーブルのテーブル構成を示す図である。 実施例1における基準値を超過するリクエストの管理の仕組みを示す図である。 実施例1における性能監視プログラムの周期性判断処理のフローチャートを示す図である。 実施例1における周期性判断処理で使用する一時保存テーブルのテーブル構成を示す図である。 実施例1における周期性データ管理テーブルのテーブル構成を示す図である。 実施例1における性能監視プログラムのアラート判断処理のフローチャートを示す図である。 実施例1におけるアラート基準管理テーブルのテーブル構成を示す図である。 実施例1における出力画面の例を示す図である。 実施例4における構成情報管理テーブルのテーブル構成を示す図である。 実施例5における実施例1に追加するアラート判断処理のフローチャートを示す図である。
 図1は本発明の一実施例によるコンピュータシステムのハードウェアおよび論理構成図である。本システムは、アプリケーションへのリクエストに対するレスポンスの応答性能を監視する性能監視サーバ101と、レスポンスの応答時間を計測する計測サーバ102と、Webアプリケーションを実行するWebサーバ103と、アプリケーションのデータを管理するデータベースサーバ104と、データを記録保存する記憶装置105と、ユーザがWebアプリケーションを使用するための複数の端末106とから構成される。Webサーバ103、データベースサーバ104、記憶装置105はそれぞれ複数台で構成されてもよい。
 端末106とWebサーバ103はネットワーク130で接続され、ネットワーク上のスイッチ107に計測サーバ102が接続される。Webサーバ103とデータベースサーバ104、記憶装置105はバックエンドのネットワーク131で接続される。性能監視サーバ101は管理用ネットワーク132で各サーバと接続される。
 性能監視サーバ101は1つ以上の処理装置(CPU)110と、メモリ111と、ハードディスク等の二次記憶装置112と、キーボード、マウスからの入力とディスプレイへの出力情報を制御する入出力インタフェース113と、管理用ネットワーク132に接続するネットワークインタフェース114とから構成される。
 また、端末106は、キーボード、マウスからの入力とディスプレイへの出力を制御する入出力インタフェース(図に記載なし)を有する。
 性能監視サーバ101のメモリ111上には性能監視プログラム120がロードされ、CPU110により実行される。また、二次記憶装置112には性能監視プログラム120が使用するテーブル122の情報が保存される。計測サーバ102ではレスポンスの応答時間を計測する応答時間計測エージェント121が実行される。Webサーバ103ではHTTP(HyperText Transfer Protocol)サーバプログラム123、およびアプリケーションプログラム125とその基盤であるアプリケーションサーバ(以降APサーバ)プログラム124が実行される。データベースサーバ104ではデータベース管理システム126が実行される。また各端末106ではWebブラウザ127が実行される。
 各サーバは物理マシンでなく仮想マシンとして実装されてもよく、Webサーバが仮想マシンの場合には、計測サーバが接続するスイッチは仮想スイッチであってもよい。
図2は性能監視プログラム120の機能モジュール構成を示す。計測サーバ102からリクエスト応答時間を収集する応答時間収集部201、収集した応答時間を監視する基準値超過監視部202、応答時間が基準値を超過したリクエスト(超過リクエスト)に対するレスポンス発生時刻の周期性を判断する周期性判断部203、周期性判断の結果からアラート送信を判断するアラート判断部204、アラートに情報を付加して出力するアラート出力部205、Webサーバ103やデータベースサーバ104においてOSまたはプログラムが使用するリソースの使用率等システムの性能情報を収集するシステム性能収集部206、周期性判断処理のモジュール起動のためのタイマ207、応答時間グラフなど性能情報を出力する性能情報出力部208、ユーザインタフェース209から構成される。
 ここで、基準値とは閾値として管理者またはシステムが設定した特定の時間であるか、又はシステムが自動的に作成する過去の実績に基づいたベースラインの値である。ベースラインの設定については特許文献1に開示された方法で実現してもよい。基準値はサービス毎に設定され、収集した応答時間データもサービス毎に管理し、サービスに設定された基準値との比較を行う。
 システム性能収集部206はWebサーバ103、データベースサーバ104のリソースの使用率等の項目を、両サーバ103と104が有する性能監視エージェントから収集する。別の収集方法として、各サーバにエージェントを配置しない形態であってもよく、その場合システム性能収集部206が各サーバに対して要求を送信して取得する。
 また性能監視プログラム120において情報を保存するためのテーブル122は、アプリケーションへのリクエストに対するレスポンスの応答時間を記録する応答時間データ蓄積テーブル210、基準値を超過したリクエストの属性等を記録するリクエスト管理テーブル211、超過したリクエストを所定の時間幅毎にまとめて管理する超過データ管理テーブル212、周期性を判断するための基準を管理する判断基準管理テーブル213、判断結果で周期性のあるデータを管理する周期性データ管理テーブル214、アラートレベルを判断するための基準を管理するアラート基準管理テーブル215、Webサーバ103やデータベースサーバ104のシステム性能情報を記録するシステム性能データ蓄積テーブル216から構成される。
 図3は計測サーバ102で実行される応答時間計測エージェント121の機能モジュール構成を示す。スイッチ107のミラーポートからパケットを取得するパケット取得処理部301、取得パケットからWebサーバ103へのHTTPリクエストと対応するレスポンスを解析するパケット解析処理部302、解析結果から応答時間を算出する応答時間算出処理部303、算出結果を性能監視サーバ101に送信するデータ送信処理部304、リクエストとレスポンスの属性等アクセス詳細情報306を記録するデータ格納処理部305から構成される。
 パケット取得処理部301では、監視対象であるWebサーバ103が接続するポートへの送受信パケットを取得する。パケット解析処理部302では、性能監視サーバ101から設定されるサービス定義307に従って、Webサーバ103宛てのパケットから特定のHTTPリクエストを識別し、ヘッダ情報等属性を記録しておき、Webサーバ103から送信されるパケットからHTTPレスポンスを識別して突き合せを行う。ここで、サービス定義307とは監視対象とするURLパス、URLクエリ等をサービスとして定義するもので、管理者が設定し、性能監視プログラム120で管理する。サービス定義307に変更のある場合、性能監視サーバ101は変更後の情報を応答時間監視エージェント121に送信する。
 応答時間算出処理部303では特定されたレスポンスのパケット取得時刻とリクエストパケットの取得時刻の差分から応答時間を算出する。
ここで応答時間計測エージェント121の処理は特許文献1に開示されたストリームデータ処理システムで実現してもよい。
 図4は性能監視プログラム120のフローチャートを示す。性能監視プログラム120は応答時間計測エージェント121から計測結果を収集する(S401)。応答時間計測エージェント121からの送信対象は計測ごと、または一定期間分(例えば1秒間分)をまとめた結果であってもよい。受信後、基準値超過監視処理(S402)を呼び出す。監視結果から、超過データがあった場合(S403)には、一定期間後に超過データの周期性判断処理(S404)を呼び出す。この判断処理の結果、超過データの発生に周期性や傾向を特定できた場合(S405)にはアラート判断処理(S406)を呼び出す。アラート判断処理後、または基準値超過データがない場合や超過データの発生の周期性や傾向が特定できなかった場合には処理を終了する。
 図5は性能監視プログラムにおける基準値超過監視処理(図4のS402)のフローチャートを示す。収集した応答時間データについて、データを基準値と比較する(S501)。 比較の結果、応答時間が基準値を超過している場合(S502)、基準値超過としてリクエスト管理テーブルに新規エントリとして登録する(S503)。次に超過データを所定の時間幅(単位時間帯)でまとめて管理するため超過データ管理テーブルに登録する。その際、単位時間帯のレコードが既に登録されているかを判断して(S504)、登録がない場合は新規レコードを作成して超過データの情報を登録し(S510)、登録後から特定時間経過するまでの超過データの傾向を判断するため、特定時間の経過時点を通知するタイマをセットし(S511)、タイマにセットする時間は、管理者またはシステムにより判断基準管理テーブル213に設定され、選択された基準の「分析期間」(図8の802)の値がそれに該当する。
 上述の単位時間帯に既にレコードがあった場合、超過データ管理テーブル212の超過リクエストIDフィールド703へリクエストの識別子IDを追加(S505)、超過リクエスト数のフィールド704を更新し(S506)、基準値との平均差分705を算出し直して更新する(S507)。次に単位時間帯の超過データについて、超過リクエスト数が一定数以上か、または基準値との差分が一定値以上かを判断する(S508)。ここでの基準値は管理者またはシステムが事前に設定した値とする。判断の結果、一定数以上か、又は一定値以上の場合はレベルを1として、アラート出力処理を呼び出す(S509)。アラート出力処理のフローチャートは図示しないが、設定されたレベルに従って、レベルとメッセージ情報を含むアラート通知を作成し、管理者またはシステムによって事前に定義された方法で通知する。例えばイベントとして出力、またはメール送信の方法がある。以降のフローチャートで呼び出されるアラート出力処理も同様である。
 図6は性能監視プログラム120が管理するリクエスト管理テーブル211の構成を示す。本テーブルはWebアプリケーションのURL毎または複数のURLを含むページ毎、または一連の処理のURLを含むトランザクション毎に作成する。ここではURL毎に本テーブルが作成されているものとする。リクエスト管理テーブルは、応答時間が基準値を超過したリクエストの情報を登録するもので、登録するリクエストに一意に割り当てるリクエストIDフィールド601、レスポンス時刻フィールド602、リクエストの属性であるURLパスフィールド603、URLクエリフィールド604、レスポンスの属性であるレスポンスコードフィールド605、転送データ量フィールド606、時間情報であるリクエスト時刻フィールド607、応答時間フィールド608から構成される。
 ここでURL毎に作成された本テーブルのレコードを、さらにレスポンスコードで分類して、別テーブルとしてもよい。レスポンスコードは100番台、200番台といった3ケタ番号による分類や、400番台と500番台のエラーとそれ以外のエラーでないコードといったエラー該否の分類でもよい。
 図7は性能監視プログラム120が管理する超過データ管理テーブル212の構成を示す。超過データ管理テーブル212は基準値超過のレスポンスを単位時間帯で区切って管理する。単位時間帯の時間幅は管理者またはシステムにより図8の判断基準管理テーブル213に設定され、選択された基準の時間幅803とし、図7の例では、単位時間幅として1分を採用している。レコードを一意に識別するための時間帯番号T#フィールド701、単位時間帯の開始時刻と終了時刻で示す単位時間帯フィールド702、該当単位時間帯にレスポンス時刻が含まれる基準超過のリクエストのIDを登録する超過リクエストIDフィールド703、超過リクエスト数をカウントして登録する超過リクエスト数フィールド704、リクエストの各応答時間の平均値の基準値との差分を記録する平均差分フィールド705から構成される。ここで時間帯フィールド702の開始時刻は時刻を含む以降の時刻を示し、終了時刻は時刻を含まない未満の時刻を示す。以降、他のテーブルで使用する時間帯についても同様とする。
 図8は性能監視プログラム120が管理する判断基準管理テーブル213の構成を示す。判断基準管理テーブル213は、基準を一意に識別するための基準番号フィールドB#801と、周期性や傾向を判断するための期間である分析期間フィールド802と単位時間帯の時間幅フィールド803から構成される。分析期間を時間幅で除した値が分析対象期間に含まれる単位時間帯の個数となる。適宜、性能監視サーバ101の入出力I/F113から、本テーブルの値を変更したり、新しい基準を追加することができる。判断基準については、一旦選択された基準で監視し、以降で説明する周期性抽出を行い、以前の周期性と比較した結果、持続時間が長くなっていると判断できる場合がある。その場合、性能監視プログラム120は使用中の基準を変更して、時間幅が長くて持続時間が近いものを選択し直すことも可能である。例えば、判断基準管理テーブル213の基準番号801のフィールドが「1」のものを選択し1分の時間幅で分析中に、平均持続時間が5分の結果が得られた場合、時間幅5分の基準番号801のフィールドが「3」の基準に変更する。この変更に伴い、分析期間も変更され、以降の超過リクエストの検出時に設定するタイマは1日となる。
 図9は基準値超過のリクエストを検出した場合に、管理テーブルに登録される情報との対応付けを示す図である。縦軸をリクエストの応答時間、横軸を時刻で示す。グラフ中の黒丸印901は、一つのリクエストのレスポンス処理に要する応答時間をプロットしたものである。ここでは、基準値として閾値とベースラインの両方を示しているが、どちらか一方の基準値であってもよい。基準値を超過しているデータが超過データであり、リクエスト管理テーブル211に登録される。判断基準管理テーブル213の基準番号1の基準が選択されている場合、時間幅902は1分である。10:00~10:01までの時間帯902には3個の超過リクエストに対するレスポンスが発生しており、超過データ管理テーブル212に登録される。この3個のリクエストについて基準値として閾値を選択した場合、閾値との差分としてそれぞれの応答時間から算出した時間903の平均値10秒は、超過データ管理テーブル212のT#が1の行の平均差分フィールド705に登録される。
 図10は性能監視プログラム120における超過データの周期性判断処理(S404)のフローチャートを示す。本処理は基準値超過監視処理がセットしたタイマのタイムアウトにより呼び出される。タイムアウトの時刻から分析期間だけ遡った時刻を算出し、この算出した時刻が超過データ管理テーブル212のどの単位時間帯に含まれるかを求めて、その単位時間帯以降でタイムアウトの時刻を含む単位時間帯までの間に含まれる超過リクエストを全て特定し(S1001)、読み出す(S1002)。
その後、レコードを時間帯の古いものから順番に取り出し、図11の一時保存テーブルに登録する(S1003)。次に、登録した全レコードについて、前のレコードの単位時間帯の終了時刻と次のレコードの単位時間帯の開始時刻が一致するかを判断する(S1004)。一致する場合、超過のあった単位時間帯が連続していると判断して、図11の一時保存テーブルの前のレコードの連続数1103をカウントアップし、1102の終了時刻を後のレコードの終了時刻に更新し、各レコードのデータから平均差分1104を算出し直して更新し、一時保存テーブルから後のレコードを削除する(S1005)。さらに更新した連続数1103が基準数に一致する場合(S1006)、アラート出力処理を行う(S1007)。ここでの基準数は管理者またはシステムが事前に設定した値とする。超過データ管理テーブルから現時刻までの全てのレコードを処理するまで繰り返す(S1008)。
 全レコード処理後、超過発生時間帯の各間隔を算出するため、一時保存テーブルに登録された各レコードの開始時刻と次のレコードの開始時刻との差分を、単位時間帯の時間幅の個数で算出する(S1009)。例えば前のレコードの開始時刻が11:00で次のレコードの開始時刻が11:03の場合、その間隔は時間幅1分の3個分となる。
 もう一つの方法として、超過発生時間帯の間隔として、前のレコードの終了時刻と次のレコードの開始時刻の差分を、時間幅の個数で算出する方法もある。その場合、前のレコードの終了時刻が11:01で次のレコードの開始時刻が11:03の場合、その間隔は時間幅1分の2個分となる。
 算出したそれぞれの間隔が同じ部分を抽出し(S1010)、間隔が同じ場合は周期性ありと判断して、周期性データ管理テーブルに登録する(S1011)。間隔が同じかどうかは、一時保存している全分析期間の間隔のうち、全てが同じ場合、または一定数連続で同じ間隔がある場合に、その期間のみを周期性ありと判断してもよい。また間隔が完全一致でなく、間隔の単位時間幅個数に±-α(例えば±1)の余裕を持たせてもよい。図12に示す周期性データ管理テーブル214には分析期間1202の開始時刻と終了時刻、周期として算出した間隔1203、持続時間幅1204として一時保存テーブルの連続数フィールド1103の最大、最少、平均を、平均差分1205として一時保存テーブルの平均差分フィールド1104の最大、最少、平均をそれぞれ登録する。
 該当区間1207には、一時保存テーブルの時間帯に含まれる超過データ管理テーブル212の時間帯番号を登録する。判断基準は処理時に設定されている判断基準管理テーブル213の判断基準番号801を登録する。登録後は一時保存テーブルのデータをクリアする(S1012)。図11(A)は一時保存テーブルの構成を示す。本テーブルは周期性判断の処理において、時間帯の連続性を把握するために一時的に使用するものである。本テーブルは、データを一意に識別するための番号フィールド1101、単位時間帯フィールド1102、単位時間帯の連続数をカウントする連続数フィールド1103、各連続時間帯の超過データの基準値との差分を連続時間帯あたりの平均で示す平均差分フィールド1105、各連続時間帯の超過リクエスト数の単位時間帯あたりの平均を示す平均超過リクエスト数フィールド1105、発生時間の間隔を時間幅の個数で表す間隔フィールド1106から構成される。図11(B)は一時保存テーブルに保存するデータ算出の仕組みを示している。
 図12は周期性データ管理テーブルの構成を示す。本テーブルは、データを一意に識別するためのデータ番号フィールド1201、分析した期間の開始時刻と終了時刻を示す分析期間フィールド1202、時間幅の個数で間隔を示す周期フィールド1203、連続する時間幅の各持続時間の最大、最少、平均を単位時間幅の個数で示す持続時間幅フィールド1204、各平均差分の最大、最少、平均を示す平均差分フィールド1205、各超過リクエスト数の最大、最少、平均を示す超過リクエスト数フィールド1206、超過の時間帯番号を示す当区間フィールド1207、判断処理の分析期間と時間幅の基準を示す判断基準番号フィールド1208から構成される。
 図13は性能監視プログラムにおけるアラート判断処理(S406)のフローチャートを示す。呼び出し時に渡される周期性データ管理テーブル214に新規登録されたレコード番号のデータを読み出す(S1301)。周期性データ管理テーブル214に登録されたレコードの中に、レコードの判断基準(図8の判断基準管理テーブル213の各行)と一致するレコードがあるか検索する(S1302)。周期性判断処理は単位時間帯の最初の超過リクエストに対するレスポンス発生時点を起点とする分析期間に行っているため、超過リクエストが発生した隣接する時間帯の時間間隔が小さい時には、周期性を判断する上記分析期間が重複する場合がある。同じ判断基準のレコードがある場合(S1303)、新規レコードの分析期間を含まない期間が分析期間となっているレコードで、終了時刻が最も後の最新レコードを読み出す(S1304)。
 上述の新規登録レコードと上記最新レコードのデータを比較して、図14のアラート基準管理テーブル215で管理する1402の条件に一致する項目があるか判断する(S1305)。一致する項目がある場合、該当の条件のレベル値をアラートレベルとして設定する(S1306)。複数の項目で一致する場合で、レベルが異なる場合は数字も大きい方のレベルを設定する。
 同じ判断基準のレコードがない場合(S1303)、またはアラートの条件に一致する項目がない場合(S1305)はレベル1をアラートレベルとして設定する(S1307)。そしてアラート出力処理を呼び出し(S1308)、レベルのアラートを出力する。
 図14はアラート基準管理テーブル215の構成を示す。本テーブルは、アラートのレベル付与の条件を管理するテーブルで、レコードを一意に識別するための番号フィールド1401、レベル付与の条件としてアラート対象項目とその条件からなるレベル付与条件フィールド1402、アラートレベルフィールド1403から構成される。アラートレベルは問題のレベルを示すもので、レベル値が大きいほど緊急性が高く、例えば情報提供レベルを1、注意レベルを2、警告レベルを3とする。
アラート対象項目として、図14では例えば周期、平均持続時間幅、平均差分、平均超過リクエスト数、発生頻度を定義している。以上により、時々発生する基準値超過のデータについて、周期があるかを判断し、周期や傾向の変化に合わせて、適切なアラートを通知することができる。
 図15は性能監視プログラム120が出力する画面の例を示す。WebアプリケーションのURLをサービスとして定義して管理し、上段にはサービス毎の性能グラフ1501を出力する。応答時間やスループット、エラー率等の性能指標のうち、応答時間について横軸に時刻、縦軸に応答時間の散布図で出力している。基準値に対する超過データは基準値の線を示すことで管理者が認識できる。超過データの周期パターンを抽出した場合、グラフ上に周期を示す帯を出力する。こうすることで管理者は帯状のデータに周期性があることが分かる。中段1502には、応答時間のグラフ1501で示されている超過データであるリクエストの属性を出力する。リクエスト管理テーブル211で保持するデータの一部または全部の項目を出力する。下段1503にはイベント一覧を出力する。周期や傾向の変化を検知したアラートはイベントしてここに出力され、例えば持続時間が以前より長くなったというアラートを確認できる。
 実施例1の変形例として、分析期間を超過リクエストの検出からタイマをセットした期間でなく、超過リクエストの検出から過去に遡る期間を対象とする方法を示す。図5の基準値超過監視処理で、超過データ管理テーブルの該当時間帯にレコードがあるかの判断において(S504)、該当時間帯のレコードがなく、同テーブルに新規レコードを追加した場合に、タイマセットは行わず、周期性判断処理を呼び出す。周期性判断処理は呼び出された時刻から、分析期間分経過後ではなく、反対に遡って超過リクエストの発生傾向があるかを判断する。S504で該当時間帯のレコードが既にある場合は、既に同時間帯に対する周期性判断処理は実施済であるので、呼び出しを行わない。周期性判断処理やアラート判断処理は前述の通りである。
 なお、性能監視サーバ101と計測サーバ102は同一サーバとしても良い。また、性能監視プログラム120と応答時間計測エージェント121は一つのプログラムに統合しても良い。
 上述の実施例1では超過リクエストの存在する時間帯の間隔から周期性を判断し、その変化でアラートレベルを決定している。本実施例2は、周期性ではなく、基準値超過のリクエストの発生頻度の変化でアラートレベルを決定する方法を示す。
実施例1では図10のステップS1009~S1011において超過発生の時間幅の間隔から周期ありかを判断している。実施例2では、このステップにおいて、分析期間の全単位時間帯の個数に対する超過発生の単位時間帯の個数の割合を算出して発生頻度とする。連続している単位時間帯はそれぞれ一つずつカウントする。図11を例にとると、分析期間を1時間、時間幅を1分とした場合で、5個の時間幅で超過があったものとする。その場合は、頻度は5/60(0.08)である。次の分析時に10個の時間幅で超過があった場合には、頻度が10/60(0.17)となる。
 図14のアラート基準管理テーブル215において、番号フィールド1401の#5のレコードには発生頻度を基準として登録しておき、頻度が基準に一致した場合すなわち頻度が前回より高くなった場合にアラートをレベル3で出力する。
以上により、超過発生の傾向として発生頻度の変化を判断して、適切なアラートを通知できる。
 本実施例3は、周期性判断処理の別の実施例であり、周期性があるかどうかを特定するためによく知られたフーリエ変換処理を使用する方法を示す。ここでは超過リクエストの発生の周期を算出するため、非定期に発生する応答時間データをそのまま処理するのではなく、実施例1の図5の基準値超過監視処理の結果得られる時間幅毎に超過リクエストのあり、なしの2値情報に基づく。周期性判断処理では、分析期間について、超過リクエストがあった時間帯を1、なかった時間帯を0として、時系列のデータを作成する。作成したデータについてフーリエ変換処理を行うことで分析期間中に含まれる周波数の周期を抽出する。複数の周波数が抽出できる場合は、それぞれを周期性データとして登録する。以降の処理については実施例1と同様である。
 本実施例4は、実施例1で管理する情報に加えて、ホストのOS等のシステムの構成情報を管理し、周期性判断処理とアラート判断処理で使用する。ここでは、構成情報と構成変更ログを使用して構成変更を挟んだデータの分析を行わず、同じ構成の場合のみ実施例1の判断処理を行う方法を示す。
図16はシステムの構成要素を管理する構成情報管理テーブルを示す。構成要素1601としてはHTTPサーバプログラム123、APサーバプログラム124、データベース管理システム126を実行するホストや、データベースのデータを保存するストレージ装置105の他、共有リソースとしてデータベースサーバへのコネクションプールや、ストレージ装置へのパス等がある。サービス毎1602に構成要素を登録して管理する。
 さらに各構成要素のログのうち、構成変更に関するログを管理する。ログの収集は対象ホストにエージェントを配置して定期的にログを検索して性能監視サーバに送信する方法、またはログ管理サーバを設けて、ホストがシステムログをログ管理サーバに送信し、性能監視サーバがログ管理サーバから構成変更に関するログを取得する方法等がある。ここで構成変更とは、ホストのOSやサーバプログラムの更新、ホストが仮想マシンの場合の別物理マシンへの移行、ハードウェアの仕様の変更等である。
 図10の周期性判断処理では、ステップS1001で分析期間前の時刻を算出する。その際、対象サービスの構成要素を前記図16の構成情報管理テーブルから読み出して、ホストを特定する。ホストのログ情報を管理するログから検索して、分析期間前の時刻から現時刻までの間に構成変更が行われていないかを確認する。行われていない場合は以降の処理は実施例1と同様である。構成変更のログが特定できた場合、構成変更ログの最新時刻を特定する。超過データ管理テーブル212からレコードを読み出す処理(S1002)では、構成変更最新時刻以降の時間帯で、最新の時間帯のレコードから順に読み出す。以降の処理は実施例1と同様である。
 さらに、図13のアラート判断処理においても、ステップS1304における最新レコードを読み出す際に、ログを検索して今回の分析期間と最新レコードの分析期間の間に、構成変更が行われていないかを確認する。構成変更が行われていない場合は以降の処理は実施例1と同様である。構成変更のログが特定できた場合、最新レコードは構成変更前なので、比較せずに、レベル1を設定して(S1307)終了する。
 構成情報を使用した別の方法として、アラート判断処理でシステムリソースの使用率等システム性能をアラート判断の条件に追加する方法を示す。実施例1で説明した図13のアラート判断処理時に判断条件を追加する。図13のステップS1305とステップS1308の間に図17に示す処理を行う。
ステップS1305の後、周期があると判断した場合、構成情報管理テーブルからサービスが依存する構成要素を特定する(S1701)。
ここで性能監視プログラム120は、実施例1で示した通り、構成要素毎に監視項目を設定して対象ホストの情報を監視し、システム性能収集モジュールで収集して、システム性能データ蓄積テーブル216に保存する。特定した構成要素の監視項目について、今回の分析期間と前回の分析期間の性能データを抽出する(S1702)。
 まず今回の分析期間のデータについて、得られた周期の時間帯について、システム性能項目で、同様に悪化している(例えば使用率があがっている)項目があるかをチェックする(S1703)。同様の傾向の項目がある場合、前回の分析期間のデータについても、前回周期と比較して同様の悪化がある項目があるかをチェックする(S1704)。今回と前回で項目が一致している場合(S1705)、項目の情報(ホスト名、項目名等)をアラート情報に追加する(S1706)。同様の傾向がない場合、リソースには問題ないと判断して、レベル1とし、リソース問題なしの情報をアラート情報に追加する(S1708)。
今回と前回の分析期間において抽出した監視項目が異なる場合、期間別に各項目情報をアラート情報に追加する(S1707)。
 またフローチャートに図示はしていないが、図13のステップS1305で、アラーとの条件に一致するレコードがない場合には、今回の分析期間のデータについてのみ、得られた周期の時間帯について、システム性能項目で、同様に悪化している(例えば使用率があがっている)項目があるかをチェックし、項目がある場合には、アラート情報に項目情報を追加する。
 さらにシステムリソースの性能に加えて、判断条件にアクセス数を追加する方法を示す。実施例1の応答時間監視エージェント121の処理に追加して、レスポンスがなかったリクエストも含めたアクセス数をカウントし、定期的に性能監視サーバに送信する。性能監視サーバでは収集したアクセス数をデータベースに保存する。分析期間のシステム性能の悪化する項目を抽出した場合に、分析期間のサービスに対するアクセス数を蓄積データから読み出す。アクセス数が同様の時間帯に増えているかどうかを判断する。前回の分析期間についても同様に、同時間帯のアクセス数が増えているかどうかを判断し、前回も今回も増加している場合は、レベルを1に設定し、アクセス数増加の情報をアラートに追加する。今回増加していない場合は、レベルはそのままでアクセス数増加なしの情報をアラートに追加する。前回は増加していなかったが今回は増加している場合は、レベルはそのままでアクセス数増加の情報をアラートに追加する。
 以上により、リクエストの応答時間の超過の傾向に、システム性能の傾向およびアクセス数の傾向を関連付けて、適切なアラートを出力できる。
101:性能監視サーバ、102:計測サーバ、103:Webサーバ、104:データベースサーバ、105:記憶装置、106:端末、107:ネットワークスイッチ、120:性能監視プログラム、121:応答時間計測エージェント、123:HTTPサーバプログラム、124:アプリケーションサーバプログラム、125:アプリケーションプログラム、126:データベース管理システム

Claims (11)

  1. 端末装置からのリクエストに応じてアプリケーションサービスを提供するアプリケーションの性能をコンピュータにより監視するアプリケーション性能監視方法において、
    該アプリケーションサービスに対する該端末からのリクエストの応答時間を計測する応答時間計測工程と、
    所定の監視期間内で該応答時間が所定の基準値を超過するリクエスト(超過リクエスト)を抽出し、該超過リクエストが発生した時間帯を特定する基準値超過監視工程と
    該超過リクエストが発生した時間帯同士の時間間隔により超過リクエストの周期性を判断する周期性判断工程と、
    を有することを特徴とするアプリケーション性能監視方法。
  2. 前記基準値超過監視工程において、
    前記監視期間内を所定の時間幅(単位時間幅)の時間帯(単位時間帯)で複数の区間に区切り、
    単位時間帯ごとに超過リクエストを抽出して該超過リクエストが発生した時間帯を特定し、
    前記周期性判断工程において、
    該超過リクエストが発生した時間帯同士の時間間隔を単位時間幅の個数で算出し、
    該個数が2間隔以上続けて同じ場合に該個数を周期として判断することを特徴とする請求項1に記載のアプリケーション性能監視方法。
  3. 前記周期性判断工程において判断された現在の周期が、前記監視期間以上遡った以前に判断された周期より短い場合に、前記端末装置にアラートを出力することを特徴とする請求項2に記載のアプリケーション性能監視方法。
  4. 前記基準値超過監視工程において、複数の単位時間帯をまたがって超過リクエストが存在する場合に、
    該単位時間帯の連続数をカウントし、
    現在の連続数が前記監視期間以上遡った以前の連続数より大きい場合に、
    前記端末装置にアラートを出力することを特徴とする請求項2に記載のアプリケーション性能監視方法。
  5. 前記基準値超過監視工程において、
    単位時間帯あたりの超過リクエストの応答時間に関する所定の基準値との差分の平均値を算出して平均差分値として管理し、
    現在の平均差分値が前記監視期間以上遡った以前の平均差分値より大きい場合に、
    前記端末装置にアラートを出力することを特徴とする請求項2に記載のアプリケーション性能監視方法。
  6. 前記基準値超過監視工程において、単位時間帯あたりの超過リクエストの平均個数を算出して管理し、現在の該平均個数が前記監視期間以上遡った以前の平均個数より多い場合に前記端末装置にアラートを出力することを特徴とする請求項2に記載のアプリケーション性能監視方法。
  7. 前記基準値超過監視工程において、
    超過リクエストが存在する単位時間帯が前記監視期間内に何個あるかを算出し、この値を前記監視期間内の単位時間帯の総個数で除した値を発生頻度として、現在の発生頻度が前記監視期間以上遡った以前の発生頻度より大きい場合に前記端末装置にアラートを出力することを特徴とする請求項2に記載のアプリケーション性能監視方法。
  8. 前記端末装置に対して、前記応答時間のグラフを出力し、前記応答時間グラフに重ねて、
    超過リクエストが存在する隣接した時間帯同士の時間間隔が2間隔以上続けて同じ時間帯に色づけし、
    該時間間隔を周期として表示することを特徴とする請求項2に記載のアプリケーション性能監視方法。
  9. 端末装置からのリクエストに応じてアプリケーションサービスを提供するアプリケーションの性能を監視するアプリケーション性能監視装置において、
    該アプリケーションの性能を監視するプログラム(性能監視プログラム)を実行する処理装置と、
    該性能監視プログラム及び該性能監視のために使用される管理テーブルを格納する記憶部と、
    を有し、
    該処理装置は、前記性能監視プログラムを実行することにより、
    該アプリケーションサービスに対する該端末装置からのリクエストの応答時間を計測する応答時間計測機能と、
    該応答時間が所定の基準値を超過するリクエスト(超過リクエスト)を抽出し、
    前記監視期間内を所定の時間幅(単位時間幅)の時間帯(単位時間帯)で複数の区間に区切り、各単位時間帯ごとに超過リクエストを抽出し、
    前記監視期間内に超過リクエストが発生した時間帯を特定する基準値超過監視機能と、
    該超過リクエストが発生した時間帯同士の時間間隔により応答時間超過の周期性を判断する周期性判断機能と、
    を有することを特徴とするアプリケーション性能監視装置。
  10. 前記記憶部は、
    前記超過リクエストを有する各単位時間帯を1レコードとして、
    該単位時間帯の連続番号と、
    該単位時間帯の開始時刻と終了時刻と、
    該単位時間帯に存在する超過リクエストの識別番号と、
    単位時間帯あたりの超過リクエストの応答時間に関する基準値との差分の平均値(平均差分値)と、
    を属性項目とした超過データ管理テーブルを前記管理テーブルとして格納し、
    該処理装置が各単位時間帯の超過リクエストを抽出した後、該テーブルの該当する単位時間帯の欄に抽出結果を記録することを特徴とする請求項9に記載のアプリケーション性能監視装置。
  11. 前記周期性判断機能において、該超過リクエストが発生した時間帯同士の時間間隔を単位時間幅の個数で算出して該個数が2間隔以上続けて同じ場合に該個数を周期とし、
    前記記憶部は、
    前記各分析期間を1レコードとして、
    該分析期間の連続番号と、
    該周期と、
    複数の単位時間帯をまたがって超過リクエストが存在する場合の該単位時間帯の連続数である持続時間幅の平均値と、
    単位時間帯あたりの超過リクエストの応答時間に関する所定の基準値との差分の平均値である平均差分値の平均値と、
    超過リクエスト数の平均値と、
    該分析期間内で超過リクエストが存在する単位時間帯の番号と、
    を属性項目とした周期性データ管理テーブルを前記管理テーブルとして格納し、
    該処理装置は各分析期間の超過リクエストの集計が終了した時に、該テーブルの該当する分析期間の欄に集計結果を記録し、該テーブルに記載された値のいずれかが所定値又は該分析期間以上遡った以前の値より大きい場合に、
    前記処理装置は前記端末装置にアラートを出力することを特徴とする請求項9に記載のアプリケーション性能監視装置。
PCT/JP2014/056358 2014-03-11 2014-03-11 アプリケーション性能監視方法および装置 WO2015136624A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/787,519 US20160080229A1 (en) 2014-03-11 2014-03-11 Application performance monitoring method and device
PCT/JP2014/056358 WO2015136624A1 (ja) 2014-03-11 2014-03-11 アプリケーション性能監視方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/056358 WO2015136624A1 (ja) 2014-03-11 2014-03-11 アプリケーション性能監視方法および装置

Publications (1)

Publication Number Publication Date
WO2015136624A1 true WO2015136624A1 (ja) 2015-09-17

Family

ID=54071104

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/056358 WO2015136624A1 (ja) 2014-03-11 2014-03-11 アプリケーション性能監視方法および装置

Country Status (2)

Country Link
US (1) US20160080229A1 (ja)
WO (1) WO2015136624A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021520563A (ja) * 2018-04-23 2021-08-19 ノボタルスキー,マーク,エス. グラフィカルユーザインタフェイスを備えるシステムパフォーマンスモニタ

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155764A (zh) 2015-04-23 2016-11-23 阿里巴巴集团控股有限公司 调度虚拟机输入输出资源的方法及装置
CN106201839B (zh) 2015-04-30 2020-02-14 阿里巴巴集团控股有限公司 一种业务对象的信息加载方法和装置
CN106209741B (zh) 2015-05-06 2020-01-03 阿里巴巴集团控股有限公司 一种虚拟主机及隔离方法、资源访问请求处理方法及装置
CN106708819A (zh) 2015-07-17 2017-05-24 阿里巴巴集团控股有限公司 一种数据缓存的预热方法及其装置
CN106487708B (zh) 2015-08-25 2020-03-13 阿里巴巴集团控股有限公司 网络访问请求控制方法和装置
US10129130B2 (en) * 2016-03-21 2018-11-13 International Business Machines Corporation Management of connections of a client application including server selection
JP6730235B2 (ja) * 2017-08-31 2020-07-29 株式会社日立製作所 アプリケーション稼働監視装置および監視方法
CN112486765B (zh) * 2020-11-25 2022-11-11 山东中创软件商用中间件股份有限公司 java应用接口管理方法、系统、装置及计算机可读存储介质
CN112636476B (zh) * 2020-12-30 2023-04-28 广东电网有限责任公司佛山供电局 一种变电站的遥测数据分析方法及装置
CN113468021B (zh) * 2021-06-28 2024-02-09 阿波罗智联(北京)科技有限公司 监控性能数据的方法、装置、设备以及存储介质
US11636018B1 (en) * 2021-10-01 2023-04-25 Sap Se Issue detection system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003742A (ja) * 2007-06-22 2009-01-08 Hitachi Electronics Service Co Ltd 業務遅延予測システム
JP2010041314A (ja) * 2008-08-04 2010-02-18 Ibc Kk ネットワーク監視システム、プログラム、情報記憶媒体及びネットワーク監視方法
WO2013186870A1 (ja) * 2012-06-13 2013-12-19 株式会社日立製作所 サービス監視システム、及び、サービス監視方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418733B2 (en) * 2002-08-26 2008-08-26 International Business Machines Corporation Determining threat level associated with network activity
WO2005017735A1 (ja) * 2003-08-19 2005-02-24 Fujitsu Limited ディスクアレイ装置におけるボトルネックを検出するシステムおよびプログラム
US7565610B2 (en) * 2004-03-30 2009-07-21 Emc Corporation System and method providing detailed network object performance information to locate root cause
US20110246833A1 (en) * 2008-12-15 2011-10-06 Bockhaus John W Detecting An Unreliable Link In A Computer System

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003742A (ja) * 2007-06-22 2009-01-08 Hitachi Electronics Service Co Ltd 業務遅延予測システム
JP2010041314A (ja) * 2008-08-04 2010-02-18 Ibc Kk ネットワーク監視システム、プログラム、情報記憶媒体及びネットワーク監視方法
WO2013186870A1 (ja) * 2012-06-13 2013-12-19 株式会社日立製作所 サービス監視システム、及び、サービス監視方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021520563A (ja) * 2018-04-23 2021-08-19 ノボタルスキー,マーク,エス. グラフィカルユーザインタフェイスを備えるシステムパフォーマンスモニタ
JP6994587B2 (ja) 2018-04-23 2022-01-14 ノボタルスキー,マーク,エス. グラフィカルユーザインタフェイスを備えるシステムパフォーマンスモニタ

Also Published As

Publication number Publication date
US20160080229A1 (en) 2016-03-17

Similar Documents

Publication Publication Date Title
WO2015136624A1 (ja) アプリケーション性能監視方法および装置
US10171335B2 (en) Analysis of site speed performance anomalies caused by server-side issues
US8655623B2 (en) Diagnostic system and method
US10664837B2 (en) Method and system for real-time, load-driven multidimensional and hierarchical classification of monitored transaction executions for visualization and analysis tasks like statistical anomaly detection
EP3745272B1 (en) An application performance analyzer and corresponding method
US10263833B2 (en) Root cause investigation of site speed performance anomalies
EP2759938A1 (en) Operations management device, operations management method, and program
US20070130330A1 (en) System for inventing computer systems and alerting users of faults to systems for monitoring
US11093349B2 (en) System and method for reactive log spooling
US9658908B2 (en) Failure symptom report device and method for detecting failure symptom
CN109976971B (zh) 硬盘状态监测方法和装置
JP2018165857A (ja) 分析装置、分析システム、分析方法および分析プログラム
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
US10504026B2 (en) Statistical detection of site speed performance anomalies
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
US8543552B2 (en) Detecting statistical variation from unclassified process log
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
US10560365B1 (en) Detection of multiple signal anomalies using zone-based value determination
JP2020009202A (ja) ストレージ装置、ストレージシステム、および性能評価方法
US9645877B2 (en) Monitoring apparatus, monitoring method, and recording medium
CN116471174B (zh) 一种日志数据监测系统、方法、装置和存储介质
CN106686082B (zh) 存储资源调整方法及管理节点
US11032158B1 (en) Computerized systems and methods for processing high-volume log files from virtual servers
JP2020035297A (ja) 機器状態監視装置及びプログラム
US10560316B2 (en) System for cloud-based service outage detection and verification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14885339

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14787519

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14885339

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP