WO2007052327A1 - 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法 - Google Patents

性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法 Download PDF

Info

Publication number
WO2007052327A1
WO2007052327A1 PCT/JP2005/019974 JP2005019974W WO2007052327A1 WO 2007052327 A1 WO2007052327 A1 WO 2007052327A1 JP 2005019974 W JP2005019974 W JP 2005019974W WO 2007052327 A1 WO2007052327 A1 WO 2007052327A1
Authority
WO
WIPO (PCT)
Prior art keywords
performance
analysis
abnormality
performance abnormality
decision tree
Prior art date
Application number
PCT/JP2005/019974
Other languages
English (en)
French (fr)
Inventor
Shinji Kikuchi
Ken Yokoyama
Akira Takeyama
Koji Ishibashi
Kenichi Shimazaki
Lilian Harada
Nobuhiro Yugami
Yukiko Seki
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to JP2007542548A priority Critical patent/JP4983604B2/ja
Priority to PCT/JP2005/019974 priority patent/WO2007052327A1/ja
Priority to EP05800458.1A priority patent/EP1944699B1/en
Publication of WO2007052327A1 publication Critical patent/WO2007052327A1/ja
Priority to US12/110,616 priority patent/US7970584B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Definitions

  • Performance abnormality analyzer method and program, and analysis result display method of performance abnormality analyzer
  • the present invention is applied to a complex network system such as a multi-layer server system.
  • the performance abnormality analysis device By analyzing and clarifying the occurrence pattern of performance abnormality, the performance abnormality analysis device, performance abnormality analysis method, performance abnormality analysis program, and performance abnormality analysis device that support the identification of early causes of performance abnormality and the early resolution of abnormality are supported.
  • the analysis result display method
  • Non-Patent Document 1 embeds a measurement method called event tracer in the Linux kernel, observes resource usage more directly, and analyzes its behavior. Since this method collects more detailed data directly, it is very effective in environments such as system benchmark tests.
  • Non-Patent Document 2 proposes "automated drill down" as a system performance analysis method. In this method, analysis is performed while changing the granularity for observing parameters, such as hours ⁇ minutes, subnet ⁇ host, and the ratio of performance abnormalities and granularity are determined.
  • Non-Patent Document 3 describes open source keyword mining software (Weka 3: Data Mining Software in Java, http: // www. es. waikato.ac.nz/ml/weka/) is used to analyze failures that occurred on eBay on the auction site.
  • Weka 3 Data Mining Software in Java, http: // www. es. waikato.ac.nz/ml/weka/
  • each parameter can be taken without numerical information.
  • the upper limit on the number of values is very limited. Then, we analyze which device in which system is causing the failure, etc., but what state (range of parameter values) the device will have! I can't know!
  • C4.5 an algorithm based on the divide-and-conquer method that recursively calls functions for constructing and constructing each node to construct a tree and constructing a tree
  • the decision tree is generated by using existing methods such as “MinEntropy”, which is a method for acquiring division information at each node and selecting an attribute to be divided from the data to be obtained.
  • Non-Patent Literature 1 T. Horkawa, Application of Event Trace Framework for Performance Problem Solutions, I PS J SIG Technical Report, 2003.
  • Non-Patent Document 2 DGHart, J ⁇ . Hellerstein, and PCYue, Failure Diagnosis Using Detection Trees Automated Drill Down: An Approach to Automated Problem Isolation f or Performance Management, Proc. Of the Computer Measurement Group, 1999.
  • Reference 3 M. Chen, AXZheng, J ⁇ loyd, M ⁇ Jordan, and E. Brewer, Failure Diag nosis Using Detection Trees, Proc. Of International Conference on Autonomic Comp uting, 2004.
  • the present invention has been made to solve the above-described problems, and can be collected only by using server logs and basic commands so that it can be easily applied to a system in actual operation.
  • An object of the present invention is to provide a highly reliable performance abnormality analysis apparatus, method and program that can handle a wide variety of parameters, and a display method thereof. Means for solving the problem
  • the present invention provides a performance abnormality analysis program for causing a computer to perform performance abnormality analysis of a system having a plurality of computer capabilities, and for acquiring resource utilization status of the system.
  • a performance abnormality presence / absence determination step for determining presence / absence of performance abnormality, information on a resource usage status acquired by the resource usage status acquisition step and a request occurrence frequency acquired by the request occurrence frequency acquisition step, and the performance abnormality presence / absence Based on the information on the presence or absence of performance abnormality determined in the determination step.
  • a condition tree is generated, and the condition analysis step for determining a condition when the ratio of performance abnormality is high is executed by a computer.
  • the condition analysis step includes, as the evaluation function, the number N of normal samples and the number A of abnormal samples belonging to a parent node.
  • the condition analysis step uses a product of A / A and N / N as the evaluation function.
  • the condition analysis step generates a plurality of decision trees while exploringly changing a set of parameters to be used when generating the decision tree. By selecting a predetermined decision tree from among them, the percentage of performance abnormalities is high! ⁇ Judge the condition of the case.
  • the conditions when the occurrence rate of performance abnormality is high are represented by a set of parameters and their thresholds, and the occurrence frequency or occurrence rate of performance abnormality and their performance abnormality
  • An analysis result output step is provided for outputting a condition in the case of occurrence of an error in a table format or a Venn diagram format.
  • the present invention is also a performance abnormality analysis method for analyzing a system performance abnormality having a plurality of computer capabilities, the resource utilization state obtaining step for obtaining a resource utilization state of the system, and a transmission result to the system.
  • the request occurrence frequency acquisition step, the processing time acquisition step to acquire the time required for the system to process the request sent to the system, and the performance error to determine whether there is a performance error The presence / absence determination step, the resource usage status acquired by the resource usage status acquisition step and the information about the request occurrence frequency acquired by the return occurrence frequency acquisition step, and the performance abnormality determined by the performance abnormality presence / absence determination step. Based on the presence / absence information, the conditions under which the performance error rate is high are identified.
  • the present invention is a performance abnormality analysis device for analyzing a system performance abnormality that also has a plurality of computer capabilities, and a resource utilization status acquisition unit that acquires a system resource usage status A request occurrence frequency acquisition unit that acquires the frequency of occurrence of requests sent to the system, a processing time acquisition unit that acquires the time required for the system to process a request sent to the system, and whether there is a performance abnormality A performance abnormality presence / absence determination unit, information on the resource usage status acquired by the resource usage status acquisition unit and the request occurrence frequency acquired by the request occurrence frequency acquisition unit, and the performance abnormality presence / absence determination unit.
  • This is a condition analysis unit that analyzes conditions when the occurrence rate of performance abnormalities is high based on the information on the presence or absence of performance abnormalities.
  • a condition analysis unit that generates the decision tree using an evaluation function that branches so that most of the nodes belong to the other child node and determines a condition when the performance abnormality rate is high.
  • the analysis result display method of the performance abnormality analyzer represents a condition when the performance abnormality occurrence rate is high as a set of parameters and thresholds, and the performance abnormality occurrence rate and the performance abnormality Added the Venn diagram format to show the condition when this occurs.
  • a parameter or threshold value in the output result of analysis can be arbitrarily changed, and the result of the change can be reflected in the chart.
  • FIG. 1 is a block diagram showing an example of a configuration according to Embodiment 1.
  • FIG. 2 is a diagram showing an example of an analysis data structure described in a structure format.
  • FIG. 3 is a diagram illustrating an example of a method for analyzing a situation using a decision tree.
  • FIG. 4 is a diagram showing a branch that generates many leaves that contain few abnormal samples.
  • FIG. 5 is a flowchart of a condition analysis step.
  • FIG. 6 shows an example of a decision tree.
  • FIG. 7 is a diagram showing the decision tree shown in FIG. 6 in a tabular format.
  • FIG. 8 is a diagram showing an example of the decision tree shown in FIG. 6 expressed in a Venn diagram format.
  • FIG. 9 is a diagram showing a Venn diagram interface.
  • FIG. 10 is a block diagram showing an outline of a system to be analyzed.
  • FIG. 11 is a diagram showing information on resource usage status.
  • FIG. 12 is a diagram showing the value of the evaluation function (TEF) under each experimental condition.
  • FIG. 13 is a diagram showing an average number of parameters necessary for explaining individual abnormal states in the decision tree generated under the experimental conditions shown in FIG. 12.
  • FIG. 14 is a diagram showing the relationship between time and the number of loops for parameter search in pattern 1 (gain) and pattern 3 (this embodiment).
  • FIG. 15 is a diagram showing an output result in a Venn diagram format when the value of the evaluation function (FFS) is maximum in the present embodiment.
  • the system subject to performance abnormality analysis is a system based on the Web as an example, and is intended for a system in which a plurality of UNIX servers and the like perform transaction processing in cooperation.
  • Examples include the e-commerce system and the enterprise business system.
  • the parameter indicating the service level to be monitored is the response time of the Web transaction. If the response power of the transaction focused by the administrator exceeds the set threshold, it is determined that a performance abnormality has occurred.
  • FIG. 1 shows the configuration of this embodiment that was set based on these assumptions.
  • 1 represents an analysis target
  • 1A represents a Web server
  • 1B represents an application server
  • 1C represents a database server.
  • the performance abnormality analysis device 10 is a database 11 that acquires and stores information necessary for analysis as measurement data 11, a performance abnormality analysis unit 12 that analyzes and judges performance abnormality conditions, and an analysis result display unit that displays the analysis results 13
  • the occurrence frequency and response time of a transaction to be monitored are acquired from a Web server log. If the Web server (Apache HTTP Server Project, http: //www.apache.org/) such as Apache (registered trademark) is widely used, the response time in msec units can be set by specifying the option. It can be recorded in a log.
  • Web server Adbreviations: http: //www.apache.org/
  • Apache registered trademark
  • a parameter indicating the resource usage status of each server is periodically collected from all the Sarnoku of the monitoring target system by using a command that can be used normally such as sar, mpstat, iostat.
  • a command that can be used normally such as sar, mpstat, iostat.
  • These parameters are analyzed using a decision tree, the request occurrence frequency and resource usage rate when the response time threshold is exceeded are analyzed, and the conditions under which performance anomalies occur are identified.
  • the performance abnormality analysis device 10 includes a resource usage status acquisition unit, a request occurrence frequency acquisition unit, a processing time acquisition unit, a performance abnormality presence determination unit, and a condition analysis unit according to the present invention. Have it!
  • Decisiveness (and Breiman, JHFriedman, RAOlsen, and CJStone, and lassincation and Regression Trees, Wadsworth, 1984) is generally used for decision making and judgment of events such as automatic control. Many classification methods. This decision tree is better suited to explain the reasons for classification and situational analysis than other classification methods such as cluster analysis. Therefore, in this embodiment, this method is used for analysis of the situation where a performance abnormality has occurred.
  • FIG. 2 shows the structure of the data used in the analysis in the structure format.
  • the data consists of four categories of information: (1) date and time, (2) request frequency, (3) resource consumption, and (4) normal Z anomaly flag.
  • each parameter is sampled at time slices of a fixed interval, and the data for one time slice is defined as one sample and used for analysis by a decision tree.
  • the types of parameters belonging to each category can be arbitrarily changed according to the transaction that the administrator pays attention to or the parameters that can acquire system power. For example, the following information is assumed to be used.
  • Date and time information Data sampling date and time
  • Request frequency The number of HTTP requests generated within a time slice, counted according to the following types:
  • the performance abnormality determination condition may include, for example, a case where the following is satisfied in a time slice. These conditions can be set as appropriate.
  • the threshold of the request of interest exceeded the specified number of times (for example, 5 times or more).
  • the threshold value of the target request exceeded the specified rate (for example, 50% or more of the number of target request occurrences within the time slice).
  • Figure 3 shows an example of how to analyze the situation of the sample defined above using a decision tree.
  • FIG. 3 shows a tree composed of one parent node P and two child nodes CI and C2.
  • Each node represents a "situation", and it can be considered that a sample that matches the situation belongs to that node.
  • parent node P has N normal samples
  • Such a branch is recursively repeated at each node, and the decision tree is constructed by subdividing the situation. Then, among the generated leaves of the decision tree, by listing the branching conditions that exist in the path to the leaf root that contains many abnormal samples, the conditions that are likely to cause abnormalities are clarified.
  • What is important when generating a decision tree is a method of selecting a parameter used for branching and its threshold value.
  • the “representative value” of the attribute represented by the leaf is often determined by majority from the sample attributes included in the leaf of the decision tree. For this reason, the leaves of the decision tree are divided so that as many samples as possible have one attribute value, and samples with other attribute values are not included as much as possible.
  • the gain is always very small, and it may be difficult to derive useful results.
  • the evaluation is made to classify the situation into "a situation with a high incidence of abnormal values and a situation" and "a situation with a high occurrence rate of normal values”.
  • the function SSF Session Separating Function
  • a parameter / threshold pair that maximizes this evaluation function is selected and the decision tree is branched.
  • one child node C1 (N1 abnormal samples) contains most of the abnormal sample A contained in the parent node and the other child node C2 (N normal samples) )
  • the number of normal samples belonging to the parent node and the number of abnormal samples A belonging to the parent node are used as the evaluation function.
  • the decision tree is constructed by recursively branching the situation using the above evaluation function. Note that a threshold is set so that the situation is not excessively resolved by the decision tree, and the ratio of the number of abnormal samples Az belonging to node Cz to the total abnormal samples A Ax / A
  • the decision tree algorithm constructs a decision tree by extracting parameters that seem to be appropriate for branching one by one from a large number of parameters and branching the situation.
  • the system that is the object of the present invention If the number of available parameters is very large or there are many parameters that are not independent, as in the case of performance anomaly analysis, optimal parameter selection cannot be performed and There are situations where you cannot get the decision tree appear.
  • FIG. 5 shows a flowchart of the conditional prayer algorithm in the condition analysis unit of the present invention. In this algorithm, parameters are selected according to the following procedure.
  • n parameters that can be used as a metric, and the set of them is [H, ⁇ , ..., «]
  • step SI Set to 0
  • a decision tree T is constructed using the set of parameters V (step S2). At this time, in set V
  • V the set of parameters actually used in the construction. Then, as shown below,
  • a fixed tree is selected (step S3).
  • “False positive rate J ⁇ TFalse negative rate” and the composite function “F-Measure” are used as functions for evaluating the appropriateness of decision trees.
  • F-Measure the composite function for evaluating the appropriateness of decision trees.
  • these evaluation functions are subject to analysis to which this embodiment is applied. Is not suitable.
  • T Decision tree
  • the concept of this function is basically the same as that of the function SSF used for branching, and the ratio ( ⁇ / ⁇ ) of the abnormal samples belonging to the leaf node L of the decision tree to the total abnormal samples is large.
  • the evaluation function TEF increases when the ratio of normal samples to which the sample belongs is small ( ⁇ / ⁇ ).
  • leaves with an extremely small number of abnormal samples are considered to have little meaning in the explanation of the occurrence of abnormalities, and in order to eliminate the effects of such leaves, a certain threshold is set and the threshold is exceeded.
  • the above evaluation function TEF shall be evaluated using only leaves that contain a proportion of abnormal samples.
  • This evaluation function TEF is used to evaluate the decision trees ⁇ , ⁇ , ..., ⁇ , and TEF (T) ⁇ TEF (T)
  • step S4 it is investigated whether the TEF value has reached the maximum value. Compare the TEF (T) obtained in Phase 3 with the maximum TEF value MAX in the previous loop.
  • the analysis result of the decision tree can be determined by just looking at the decision tree. It becomes very difficult to interpret. In fact, there are many system administrators who have never seen a decision tree. In this embodiment, the analysis result of the decision tree is not output as it is so that the administrator can grasp the situation more intuitively. To output.
  • Fig. 6 shows a decision tree
  • Fig. 7 shows the decision tree in tabular form.
  • the three conditional expressions used to generate the Venn diagram are the following: For all conditional expressions existing in the decision tree, the evaluation function SSF when all samples are divided using each conditional expression is evaluated, and Three conditional expressions with large SSF shall be used in the Venn diagram. In addition, for each area in the Venn diagram, the higher the abnormality occurrence rate, the darker the color is displayed, and the more important points are displayed in an easy-to-understand manner.
  • FIG. 8 shows an example in which the decision tree of FIG. 6 is represented in the Venn diagram format. From this figure, the most abnormal The most likely situation is when (1) the date is after 26th, (2) requests for * .html are at least lOOreq / sec, and (3) CPU usage is at least 70%. It can be understood intuitively.
  • the Venn diagram itself has a function as an interface, and a new analysis is performed by interactively modifying the analysis result without simply outputting the result using the Venn diagram.
  • Figure 9 shows a screenshot of this Venn diagram interface created with Java Applet.
  • This embodiment was applied to an environment that is actually used by many users, and its analysis and evaluation were performed.
  • FIG. 10 shows an outline of the analysis target system.
  • the analysis target system is a Web system consisting of four Web servers / application servers and one DB server. User requests are evenly distributed by the load balancer to the Web server / application server with four CPUs.
  • the DB server has 8 CPUs.
  • the OS of all these servers is Solaris8 (registered trademark), Apache for the web server, Fujitsu Interstage for the application server (Fujitsu Interstage, http://interstage.fujitsu.com/), DB server ⁇ Fujitsu Symfoware (Fujitsu Symfoware, http://www.fujitsu.com/services/software/symfoware/) LTV for ll.
  • the user ability also selects one request (URL) with a relatively large number of occurrences and response time, and made it a request for analysis in this embodiment.
  • the response time of the request is the Apache web server
  • 96 types of resource usage information shown in Fig. 11 were obtained from 5 servers by standard Unix commands. This information is sampled at 10-minute intervals over 26 days, and five types of time information (year, month, day, hour, minute) are added to them, for a total of 502 parameters, parameters for performance abnormality analysis. Prepared as.
  • the anomaly analysis apparatus is configured using Red Hat Enterprise Linux (http://www.redhat.com/software Implemented on / rhel /). As described above, only the Venn diagram interface is implemented by Java applet.
  • the CPU of the PC used for analysis is Pentium (registered trademark) 4, 3EGhz, and the memory is 1 Gbyte.
  • the decision tree for the leaves of the decision tree containing 10% or more abnormal samples of the total abnormal samples, the number of parameters appearing in the path to the root force leaf is counted and averaged over the entire decision tree. The smaller this value is, the better the situation can be analyzed with fewer parameters and the better.
  • Figure 12 shows the value of the evaluation function TEF under each experimental condition. From the figure, the algorithm in the present embodiment shows a higher TEF value than when gain is used for generation of a decision tree or when parameter search is not performed. For this reason, the evaluation function and parameter selection method in this embodiment greatly contribute to the improvement of analysis accuracy.
  • Figure 13 shows the average number of parameters required to explain each abnormal state in the decision tree generated under each condition. From FIG. 13, the number of parameters required for the explanation was smaller when SSF was used than when gain was used as the evaluation function. Therefore, it can be said that the use of the evaluation function SSF contributes to the simplification of the description of the situation! /.
  • Figure 14 shows the relationship between the calculation time and the number of loops for parameter search in Experiment Pattern 1 (Gain) and Pattern 3 (Embodiment). From the figure, it can be seen that the number of loops that are used until the convergence of the force results using SSF is greater than the case where gains are used, but the time required to generate decision trees is very small. . In addition, the average calculation time per loop is 334.11 seconds for the gain, whereas the SSF is 21.308 seconds, which is about 1/15. This is because it takes time to calculate the logarithm necessary to calculate the gain, and when it is hard to generate one decision tree because the size of the generated decision tree is large. This is thought to be caused by an increase in the interval. From this, it can be said that the adoption of the evaluation function SSF contributes not only to the accuracy and simplicity of explanation but also to the reduction of calculation time.
  • FIG. 15 shows an example of a Venn diagram output result when the value of the evaluation function TEF is the largest among the above experiments (Pattern 3 (this embodiment) threshold value 5 seconds).
  • the DB (database) server I / O read count is 143203 times / 10 minutes
  • the DB server total Disk busy time is 445 seconds or more and 605 seconds or less / 10 minutes (Disk is Because there are multiple, the total power may be 3 ⁇ 400 seconds / 10 minutes or more)
  • the number of system calls related to inter-process communication messages of the fourth application server is 40 times / 10 minutes.
  • a Venn diagram is constructed.
  • the rate of occurrence of abnormalities under conditions that meet one of the two conditions related to the DB server is far greater than the average rate of abnormal occurrence (14.3%) in the entire sample. ing. Therefore, the cause of performance anomalies in this system is thought to be the concentration of disk access to the database server. Therefore, it is considered that most of the performance anomalies can be resolved by preventing the concentration of disk access by improving the disk access method in the database server application or by using a distributed database server.
  • the situation at the time of observation is separated into a situation where the occurrence rate of performance abnormality is high and a situation where the occurrence rate of performance abnormality is low, and the occurrence rate of performance abnormality is high.
  • a parent node representing a situation in the decision tree is branched to two child nodes, most of the normal values belonging to the parent node are assigned to one child node.
  • a decision tree is generated using an evaluation function that branches so that most of the abnormal values belonging to the parent node belong to the other child node, and the occurrence rate of performance abnormalities is high!
  • Performance abnormality occurrence frequency under different conditions by changing the drawing method (color, pattern, etc.) of each area of the Venn diagram according to the frequency and frequency of occurrence of performance abnormality under the situation represented by each area It becomes possible to grasp the difference of the ratio and the ratio more intuitively.
  • a program for causing a computer to execute a performance abnormality analysis and its display method can be provided as a performance abnormality analysis program.
  • the computer constituting the performance abnormality analysis apparatus can be executed.
  • the recording medium readable by the computer includes an internal storage device such as a ROM or RAM, a portable type such as a CD-ROM, a flexible disk, a DVD disk, a magneto-optical disk, or an IC card. It includes storage media, databases holding computer programs, other computers and their databases, and also transmission media on lines.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 資源利用状況取得ステップにより取得された資源利用状況とリクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度に関する情報と、性能異常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を判断するに際し、決定木の手法を用いて、決定木のある状況を表す親ノードを2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて決定木を生成するようにした。

Description

性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の 分析結果表示方法
技術分野
[0001] 本発明は、例えば、複層サーバシステムなどの複雑なネットワークシステムにおいて
、性能異常の発生パターンを解析して明確にすることで、性能異常の早期原因特定 や早期異常解消を支援する性能異常分析装置、性能異常分析方法及び性能異常 分析プログラム、並びに性能異常分析装置の分析結果表示方法に関するものである
背景技術
[0002] 従来より、システムの性能異常の原因を解析する方法はいくつ力研究されてきてい る。下記非特許文献 1は、イベントトレーサという測定手段をリナックス (Linux)のカー ネルに埋め込み、資源の利用状況をより直接的に観測し、その挙動の分析を行って いる。この方法は、より詳細なデータを直接採取するので、システムのベンチマークテ ストなどの環境においては、非常に有効である。
[0003] しかし、運用中のシステムにおいて、カーネルに測定手段を埋め込むのは非常に 困難である。また、この手段はオープンソースの OSにしか適用できない。
[0004] また、下記非特許文献 2は、システム性能分析の方法として、 "automated drill down "を提案している。この手法は、時間→分、サブネット→ホストというように、パラメータ を観測する粒度を変化させながら分析を行 、、性能異常の割合の大き 、粒度を割り 出している。
[0005] しかし、この手法にぉ 、ては、リソース消費量など、連続量で表されるパラメータに ついては、粒度を設定することのできないパラメータは分析が困難である。よって、分 祈に用いることのできるパラメータが非常に限られてしまうため、本発明の目的である 、多数の数値パラメータの分析には適用することは困難である。
[0006] 決定木を利用した障害分析の方法としては、非特許文献 3にお 、て、オープンソー スのァ一タマイニングツーノレ (Weka 3: Data Mining Software in Java, http://www.es. waikato.ac.nz/ml/weka/)を用いて、オークションサイトの eBayで発生した障害を分析 している。しかし、この手法における環境においては、分析に用いられるパラメータの 種類が 6つしかなぐそれらはリクエストのタイプやホスト名など、全て離散的な情報で あり、数値情報ではなぐそれぞれのパラメータが取りうる値の数の上限は非常に限ら れている。そして、どのシステム内のどの機器が障害の原因となっているかなどにつ いて分析を行うが、その機器がどのような状態 (パラメータの値の範囲)になると障害が 発生するかと!/、うことを知ることはできな!、。
[0007] さらに、この手法では、「C4.5」(分割統治法に基づくアルゴリズムを有し、各ノードを 構築構築するための関数を再帰的に呼び出して木を構築し、木を構築する対象とな るデータから、各ノードにおける分割情報を取得して分割対象となる属性を選択する 手法)や「MinEntropy」などの既存の手法を用いて決定木を生成して 、る。
非特干文献 1 : T.Horkawa, Application of Event Trace Framework for Performance Problem Solutions, I PS J SIG Technical Report, 2003.
非特許文献 2 : D.G.Hart, J丄. Hellerstein, and P.C.Yue, Failure Diagnosis Using Det ection Trees Automated Drill Down: An Approach to Automated Problem Isolation f or Performance Management, Proc. of the Computer Measurement Group, 1999. 非特許文献 3 : M.Chen, A.X.Zheng, J丄 loyd, M丄 Jordan, and E.Brewer, Failure Diag nosis Using Detection Trees, Proc. of International Conference on Autonomic Comp uting, 2004.
発明の開示
発明が解決しょうとする課題
[0008] ところで、近年のネットワークサービスの発展に伴い、そのサービスの品質の高さが 問われるようになってきている。例えば、事業者とサービスプロバイダの間で Service 1 evel agreement (SLA)が締結され、サービス品質の劣化に対して、サービスプロバイ ダにペナルティが課せられるケースも出てきている。このため、システム管理者はサ 一ビス品質を常に監視し、性能異常を減らすよう努める必要がある。
[0009] しカゝしながら、近年は Webシステムに代表されるネットワークシステムが大規模/複 雑ィ匕してきている。従って、上述した従来の技術においては、それらを構成する機器 の稼働状況を示す多種多様なパラメータから、システムの挙動を把握し、異常が発 生した状況の特徴を分析し、異常の原因を特定するのは困難であるという問題がある
[0010] 本発明は上述した問題点を解決するためになされたものであり、実運用中のシステ ムに容易に適用可能になるように、サーバのログや基本コマンドの利用のみで採取 可能な多種多様なパラメータを扱うことができ、精度が高ぐ信頼度の高い性能異常 分析装置、方法及びプログラム、並びにその表示方法を提供することを目的とする。 課題を解決するための手段
[0011] 上述した課題を解決するため、本発明は、複数のコンピュータ力もなるシステムの 性能異常の分析をコンピュータに実行させる性能異常分析プログラムであって、シス テムの資源利用状況を取得する資源利用状況取得ステップと、システムに送信され るリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、システムに送 信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得ス テツプと、性能異常の有無を判断する性能異常有無判断ステップと、前記資源利用 状況取得ステップにより取得された資源利用状況とリクエスト発生頻度取得ステップ により取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断ステ ップにより判断された性能異常の有無に関する情報とに基づき、性能異常の発生割 合が高くなる場合の条件を分析する条件分析ステップであって、決定木の手法を用 いて、決定木のある状況を表す親ノードを 2つの子ノードに分岐する際に、親ノードに 属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値 の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決 定木を生成し、性能異常の割合が高 ヽ場合の条件を判断する前記条件分析ステツ プとを備えてコンピュータに実行させるものである。
[0012] また、本発明の性能異常分析プログラムにおいて、前記条件分析ステップは、前記 評価関数として、親ノードに属する正常サンプルの数 N及び異常サンプルの数 Aと
0 0
、一方の子ノードに属する異常サンプルの数 A及び他方の子ノードに属する正常サ
1
ンプルの数 Nの組、又は一方の子ノードに属する正常サンプルの数 N及び他方の
2 1
子ノードに属する異常サンプルの数 Aの組との 、ずれかの組におけるそれぞれのサ ンプノレの数と
を用いた評価関数を用いることを特徴とする。
[0013] また、本発明の性能異常分析プログラムにおいて、前記条件分析ステップは、前記 評価関数として、 A /Aと N /Nの積を用いることを特徴とする。
1 0 2 0
[0014] また、本発明の性能異常分析プログラムにお 、て、前記条件分析ステップは、決定 木を生成する際に、使用するパラメータの集合を探索的に変化させながら、複数の 決定木を生成し、その中から所定の一つの決定木を選択することで、性能異常の発 生割合が高!ヽ場合の条件を判断する。
[0015] また、本発明の性能異常分析プログラムにおいて、性能異常の発生割合が高くなる 場合の条件を、パラメータとその閾値の集合で表し、性能異常の発生頻度又は発生 割合と、それらの性能異常が発生したときの条件を、表形式又はベン図形式で出力 する分析結果出力ステップを備えることを特徴とする。
[0016] また、本発明は、複数のコンピュータ力もなるシステムの性能異常の分析を行う性 能異常分析方法であって、システムの資源利用状況を取得する資源利用状況取得 ステップと、システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度 取得ステップと、システムに送信されるリクエストをシステムが処理するのに要した時 間を取得する処理時間取得ステップと、性能異常の有無を判断する性能異常有無 判断ステップと、前記資源利用状況取得ステップにより取得された資源利用状況とリ タエスト発生頻度取得ステップにより取得されたリクエストの発生頻度に関する情報と 、前記性能異常有無判断ステップにより判断された性能異常の有無に関する情報と に基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析ステップ であって、決定木の手法を用いて、決定木のある状況を表す親ノードを 2つの子ノー ドに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所 属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行う ような評価関数を用いて前記決定木を生成し、性能異常の割合が高い場合の条件 を判断する前記条件分析ステップとを備える。
[0017] また、本発明は、複数のコンピュータ力もなるシステムの性能異常を分析する性能 異常分析装置であって、システムの資源利用状況を取得する資源利用状況取得部 と、システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得部 と、システムに送信されるリクエストをシステムが処理するのに要した時間を取得する 処理時間取得部と、性能異常の有無を判断する性能異常有無判断部と、前記資源 利用状況取得部により取得された資源利用状況とリクエスト発生頻度取得部により取 得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断部により判断 された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場 合の条件を分析する条件分析部であって、決定木の手法を用いて、決定木のある状 況を表す親ノードを 2つの子ノードに分岐する際に、親ノードに属する正常サンプル の大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子 ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能 異常の割合が高い場合の条件を判断する前記条件分析部とを備えてなる。
[0018] また、本発明に係る性能異常分析装置の分析結果表示方法は、性能異常の発生 割合が高くなる場合の条件をパラメータとその閾値の集合で表し、性能異常の発生 割合と該性能異常が発生するときの条件をベン図形式で表示するようにした。
[0019] この性能異常分析装置の分析結果表示方法にお!、て、ベン図の各領域の描画方 法を、各領域が表す状況下における性能異常発生頻度又は発生回数に対応させて 変化させることで、異なる条件下における性能異常発生頻度の差異を視覚的に表す ことを特徴とすることができる。
[0020] また、分析の出力結果におけるパラメータ又は閾値を任意に変更することができ、 その変更による結果を図表に反映することを特徴とすることもできる。
図面の簡単な説明
[0021] [図 1]実施の形態 1に係るの構成の一例を示すブロック図である。
[図 2]構造体形式で記述した分析用データ構造の一例を示す図である。
[図 3]決定木によって状況分析を行う方法の一例を示す図である。
[図 4]異常サンプルをほとんど含まないような葉を多数生成するような分岐を示す図で ある。
[図 5]条件分析ステップのフローチャートである。
[図 6]決定木の一例を示す図である。 [図 7]図 6に示した決定木を表形式で示した図である。
[図 8]図 6に示した決定木をベン図形式で表した例を示す図である。
[図 9]ベン図インタフェースを示す図である。
[図 10]分析対象システムの概要を示すブロック図である。
[図 11]リソース利用状況に関する情報を示す図である。
[図 12]実験条件下それぞれにおける評価関数 (TEF)の値を示す図である。
[図 13]図 12に示した実験条件下で生成された決定木において個々の異常状態の説 明に必要なパラメータの平均個数を示す図である。
[図 14]パターン 1 (ゲイン)とパターン 3 (本実施の形態)における時間とパラメータ探索 のためのループ回数の関係を示す図である。
[図 15]本実施の形態における評価関数 (FFS)の値が最大となる場合のベン図形式で の出力結果を示す図である。
発明を実施するための最良の形態
[0022] 以下、本発明の実施の形態について図面を参照しつつ説明する。
[0023] [分析ターゲット]
本実施の形態において、性能異常の分析対象とするシステムは、一例として Webを 基本としたシステムであり、複数の UNIXサーバなどが連携してトランザクション処理を 行うようなシステムを対象としている。例えば、 e-commerceシステムや、ェンタプライズ における基幹業務システムなどが挙げられる。
[0024] 監視対象となるサービスレベルを示すパラメータは、 Webトランザクションのレスポン スタイムとし、管理者が着目するトランザクションのレスポンス力 設定された閾値を越 えた場合、性能異常が発生したと判断する。
[0025] [アプローチ]
分析対象となるシステムを監視し、それらの挙動を示すパラメータを獲得するため の手法には様々なものが存在している。例えば、監視のためのコードを OSに埋め込 んだり、特別な監視用機器をネットワークに挿入したりする方法がある。しかし、それら の方法は、実際に稼働中のシステムに導入するのに困難が伴う場合が多 、。
[0026] 本実施の形態では、より実装が容易な方法として、サーバのログや基本的なコマン ド操作力も得られる情報のみを利用して分析を行うこととしている。なお、この手法は 上記の手法の採用を妨げるものではない。このような前提に基づき、設定した本実施 の形態の構成を図 1に示す。図 1において、 1は分析対象を表し、 1 Aは Webサーバ、 1Bはアプリケーションサーノ 、 1Cはデータベースサーバを示す。性能異常分析装 置 10は分析に必要な情報を測定データとして取得し記憶するデータベース 11、性 能異常の条件を分析し判断する性能異常分析部 12、及びその分析結果を表示する 分析結果表示部 13を有する。
[0027] 本実施の形態のシステムにおいて、監視対象であるトランザクションの発生頻度や レスポンスタイムは、 Webサーバのログから取得する。広く普及している Apache (登録 商標)等の Webサーバ (Apache HTTP Server Project, http: //www. apache. org/)であ れば、オプションを指定することにより、 msec単位でのレスポンスタイムをログに記録 することが可能である。
[0028] また、各サーバのリソース利用状況を示すパラメータを、 sar,mpstat,iostatなど、標 準的に利用できるコマンドを利用して、監視対象システムの全てのサーノくから定期的 に採取する。これらのパラメータを決定木によって分析し、レスポンスタイムの閾値超 えが発生した時点でのリクエスト発生頻度やリソースの使用率を分析し、性能異常が 発生する条件を特定するものとする。ここにおいて、後述するように、性能異常分析 装置 10は、本発明の資源利用状況取得部と、リクエスト発生頻度取得部と、処理時 間取得部と、性能異常有無判断部と条件分析部とを有して!/ヽる。
[0029] [分析アルゴリズム]
(決定木)
決定不 (し Breiman, J.H.Friedman, R.A.Olsen, and C.J.Stone, し lassincation and R egression Trees, Wadsworth, 1984.)は、一般的には自動制御などの意思決定や事 象の判断に用いられることが多い分類手法である。この決定木は、クラスタ分析など 他の分類手法に比べて、分類や状況分析の理由を説明するのに適している。そこで 、本実施の形態では、この手法を性能異常が発生した状況の分析に用いることにす る。
[0030] (データ構造) 分析に用いるデータの構造を構造体形式で記述したものを図 2に示す。データは( 1)日時、(2)リクエスト頻度、(3)リソース消費量、そして (4)正常 Z異常を区別するフ ラグの 4つのカテゴリの情報によって構成されている。本実施の形態の手法において は、各パラメータを一定間隔のタイムスライスでサンプリングし、そのタイムスライス 1個 分のデータを 1サンプルとして定義し、決定木による分析に用いる。
[0031] 各カテゴリに属するパラメータの種類は、管理者の着目するトランザクションや、シス テム力 取得可能なパラメータによって任意に変更可能である力 例えば、以下のよ うな情報などの利用が想定される。
[0032] (1)日時情報:データのサンプリング日時
年、月、 日、時、分
(2)リクエスト頻度:タイムスライス内で発生した HTTPリクエストの数を、以下の種類別 にカウントしたもの
レスポンスコード (200, 304, 404, etc)
拡張子 (.html, .gif, .jsp, gi, etc)
リクエストタイプ (GET or POST)
性能異常監視対象のリクエスト (URL)
(3)リソース消費量:以下の場合を一例とする。
CPU使用率 (Usr, Sys, I/O wait, total,キュー長, etc)
Disk (読込 Z書込回数, R/W待ち時間等)
Memory (空きメモリ,ページフォルト数等)
Process (アクティブプロセス数)
(4)フラグ属性: 各タイムスライスについて、そのタイムスライス内の着目リクエストのレ スポンスタイムが所定の性能異常判定条件を満たした場合に、そのタイムスライスを 性能異常サンプルと判定し、条件を満たさない場合は、正常サンプルと判定する。
[0033] 性能異常判定条件とは、例えば、タイムスライス内で、以下を満たす場合を含み得 る。これらの条件は適宜設定することができるものとする。
(1)着目リクエストの閾値越えが 1回でも発生した。
(2)着目リクエストの閾値越えが所定の回数以上 (例えば 5回以上)発生した。 (3)着目リクエストの閾値越えが所定の割合以上 (例えば、そのタイムスライス内での 着目リクエストの発生回数の 50%以上)発生した。
(4)着目リクエストのレスポンスタイムが長 、もの力も上位 20%のレスポンスタイムが 閾値を超えた。
[0034] (決定木の構成)
上記で定義したサンプルを、決定木によって状況分析を行う方法の例を図 3に示す
。図 3には、 1つの親ノード Pと、 2つの子ノード CI, C2からなる木が示されている。
[0035] それぞれのノードは「状況」を表しており、その状況に合致するサンプルがそのノー ドに属していると考えることができる。ここでは、親ノード Pには、 N個の正常サンプル
0
と A個の異常サンプルが含まれているものとする。そして、親ノード Pが表す状況を、
0
ノ ラメータ αが Τ未満である状況 C1 (正常サンプル Ν個と異常サンプル Α個が属す
1 1 る)と、 aが T以上である状況 C2(正常サンプル N個と、異常サンプル A個を含む)に
2 2
分岐している。
[0036] このような分岐を各ノードで再帰的に繰り返していき、状況を細分化することで、決 定木を構築していく。そして、生成された決定木の葉のうち、異常サンプルを多く含 む葉力 根までのパスに存在する分岐条件をリストアップすることで、異常が発生し やすい条件を明らかにする。
[0037] 決定木を生成する際に重要なことは、分岐に用いるパラメータとその閾値の選択方 法である。一般的な決定木においては、決定木の葉に含まれるサンプルの属性から 、その葉が表す属性の「代表値」を多数決によって決定する場合が多い。このようなこ とから、決定木の葉には、なるべく 1つの属性値を持つサンプルが多数含まれ、他の 属性値を持つサンプルがあまり含まれないように分割をする。
[0038] 例えば、代表的な決定木構築手法 ID3においては、式(1) (2)に示される情報利 得という評価関数を用いて、分岐に利用するパラメータの選択を行う (S.J.Russell, and P.Norvig, Artificial intelligence, Prentice-Hall, 1995.ノ。
[0039] [数 1] Gain = -p(0) + ^^- p(i) \ (1 )
! + W0
Ρ(η) ' t log2 -
An + Nn
' (2)
-log2
A„ + N, A„ + NK
[0040] しかし、本発明の目的である性能異常の発生状況の分析においては、性能異常の 発生確率が低ぐ異常サンプルよりも正常サンプルの方がはるかに多い場合 (Ν≥A )
0 0 が多数存在すると考えられる。このような条件下においては、
[0041] [数 2]
+ N0 Q + N0
[0042] となり、常にゲインが非常に小さくなつてしまい、有用な結果が導出しにくい可能性 もめる。
[0043] さらに、このような分岐方法では、数の多い正常サンプルのみが発生する条件の抽 出が容易になるため、図 4に示したように、異常サンプルほとんど含まないような葉を 多数生成するような分岐が現れる可能性も高い。このような分岐を多数行っても、分 岐前のノード (P)と分岐後のノード (C4)において、それらが表す状況 (含まれる異常サ ンプル)はほとんど変化しな!、。
[0044] それにも関わらず、状況の説明に必要な条件式の数はどんどん大きくなつてしまう。
本発明の目的である「異常が発生する状況の分析」においては、分析結果が簡潔で ある (状況の説明に必要な条件式が少な 、;)方が好ま 、ので、このような分岐方法は 本実施の形態には適さない。
[0045] 上記の問題を解決するため、本実施の形態においては、状況を「異常値の発生割 合が多 、状況」と「正常値の発生割合が多 、状況」に分類するための評価関数 SSF(S ituation Separating Function)を考案し採用した。この評価関数を最大にするようなパ ラメータと閾値の組を選択し、決定木の分岐を行うものとする。 [0046] [数 3]
[0047] 図 3に示すように、 1つの親ノード PP (正常サンプル N個、異常サンプル A個)を 2つ
0 0 の子ノードに分割する場合、片方の子ノード C1 (異常サンプル N1個)に、親ノードに含 まれる異常サンプル Aの大部分が含まれ、もう一方の子ノード C2(正常サンプル N個)
0 2 に、親ノードに含まれる正常サンプル Nの大部分が含まれる場合、評価関数 SSFの
0
値は大きくなる。
[0048] この方法であれば、正常サンプル数と異常サンプル数の比率 (A /N )によらず、そ
0 0
れらのサンプルを「異常力 比較的"発生しやすい状況」と「異常がほとんど発生しな い状況」を適切に分離することが可能である。なお、本実施の形態では、評価関数と して、親ノードに属する正常サンプルの数 N及び異常サンプルの数 Aと、一方の子
0 0
ノードに属する異常サンプルの数 A及び他方の子ノードに属する正常サンプルの数
1
Nの組を用いるようにした力 これに代えて、親ノードに属する正常サンプルの数 N
2 0 及び異常サンプルの数 Aと、一方の子ノードに属する正常サンプルの数 N及び他
0 1 方の子ノードに属する異常サンプルの数 Aの組とを用いて同様の効果を有する評価
2
関数を用いるようにしても良 、ことは 、うまでもな!、。
[0049] 本実施の形態においては、上記の評価関数を用いて、状況の分岐を再帰的に行 い、決定木を構築する。なお、決定木により状況が過度に細力べ分解されないように 閾値を設け、ノード Czに属する異常サンプル数 Azと異常サンプル全体 Aの比 Ax/A
0 0 がその閾値を下回ったら、そのノードを終端するものとする。
[0050] (パラメータ選択)
決定木アルゴリズムは多数のパラメータの中から、分岐に適切と思われるパラメータ を 1つずつ抽出して、状況の分岐を行うことで決定木を構築していくが、本発明の目 的であるシステムの性能異常分析の場合のように、利用可能なパラメータの数が非 常に大きかったり、独立でないパラメータが多数存在する場合には、最適なパラメ一 タ選択を行うことができずに、状況を適切に表す決定木を獲得できないような状況も 発生する。
[0051] このような問題を解決するために、本実施の形態においては、条件分析において、 決定木の生成に使用するパラメータを探索的に選択変更させながら、複数の決定木 を生成し、その中から最良の結果を選択する。本発明の条件分析部における条件分 祈のアルゴリズムのフローチャートを図 5に示す。このアルゴリズムでは、以下のような 手順でパラメータの選択を行う。
[0052] (Phase 1 :初期化)
ノ メータとして使用可能なパラメータが n個あり、それらの集合が [ひ , α ,···, « ]で
1 2 η あるとき、 V= [ひ , α ,· · ·, a ]とおく。また、評価関数の最大値を表すパラメータ MAXを
1 2 n
0とおく(ステップ SI)。
[0053] (Phase2 :決定木構築)
ノ ラメータの集合 Vを使って決定木 Tを構築する (ステップ S 2)。このとき、集合 V中
0
の全てのパラメータが決定木の生成に使用されるとは限らない。集合 Vのうち、 τの
0 構築に実際に使用されたパラメータの集合を Vとする。そして、以下のように、 Vにパ
0 0 ラメータ aを加える、もしくは V力もパラメータ aを削除した集合を Vとする。
i 0 i i
[0054] 画
Figure imgf000014_0001
[0055] 上記の (1≤ η)を利用して、 η個の決定木 1^(1≤ η)を構築する。
[0056] (Phase3:決定木評価と選択)
ここでは、 Phase2で構築した n+1個の決定木 Τ ,Τ ,· · ·,Τの中から、もっとも適切な決
0 1 η
定木の選択を行う(ステップ S3)。決定木の適切さを評価する関数としては、一般的 には「False positive rate J ^ TFalse negative rate」、そしてそれらの複合的な関数で ある「F-Measure」の値などが用いられている。し力し、前述したように、異常サンプル に比べて正常サンプルの数が非常に大きいような場合には、あらゆる葉で異常サン プルよりも正常サンプルの方が多ぐ全ての結果において「False negative]になるよう な場合も存在するため、これらの評価関数は本実施の形態が適用される分析対象に は適さない。
[0057] このようなことから、本実施の形態では、以下の独自の評価関数 Tree Evaluation Fu notion (TEF)を用いて、決定木の適切さを判断するものとする。
[0058] [数 5]
Al
- A ; (N - N . )
TEF(T) = - ' F …(
i
[0059] :で、 T:決定木
Ν:正常サンプノレ全体の数
Α:異常サンプル全体の数
Τ:閾値
L :決定木 Τの葉ノード
Α :葉 Lに属する異常サンプルの数
Ν:葉しに属する正常サンプルの数
[0060] この関数の考え方は基本的には分岐に用いた関数 SSFと同様であり、決定木の葉 ノード Lに属する異常サンプルの、異常サンプル全体に対する割合 (Α/Α)が大きぐ かつその Lに属する正常サンプルの、正常サンプル全体に対する割合 (Ν/Ν)が小さ い場合に、評価関数 TEFは大きくなる。また、異常サンプル数が極度に少ない葉に ついては、異常発生状況の説明にほとんど意味を持たないものと考え、そのような葉 の影響を除去するために、一定の閾値を設け、その閾値以上の割合の異常サンプル を含むような葉のみを用いて上記の評価関数 TEFを評価するものとする。
[0061] この評価関数 TEFを用いて決定木 Τ ,Τ ,· ··,Τの評価を行い、 TEF(T )≥TEF(T )
0 1 n M M
≥TEF(T) (0≤ n)となる Mを導出し、 V=Vと設定する。
i M
[0062] (Phase4 :判定)
ここでは、 TEFの値が極大値になったかどうかを調査する(ステップ S4)。 Phase3で 得られた TEF(T )を、以前のループにおける TEFの最大値 MAXと比較し、 TEF(T )>
M M
MAXの場合は、 MAX=TEF(T )と代入し (ステップ S5)、再度 Phase2よりループを繰り
M
返す。 TEF(T )=MAXの場合は、 TEF(T )の値が極大値に達したと判断し、ループを 終了し、 Tを最終的に得られた決定木として採択する (ステップ S6)。
[0063] (出力)
決定木により、性能異常が発生しやすい状況を特定することは可能になるが、決定 木のサイズが大きくなり、ノードの数が増加すると、決定木を見ただけでは、その決定 木の分析結果を解釈することが非常に困難になる。実際、決定木を目にしたこともな いシステム管理者も多数存在すると考えられる。本実施の形態では、管理者がより直 感的に状況を把握できるように、決定木をそのまま出力するのではなぐその決定木 の分析結果を表形式とベン図形式という、より分力りやすい形式で出力する。
[0064] (テーブル形式)
決定木の分析結果を表形式に変換するために、異常サンプルを含むような状況を 表す決定木の葉に対して、根からそれらの葉までのそれぞれのパスに現れる条件式 を抽出する。そして、その条件式を、日時、リクエスト頻度、リソース消費量の 3つの力 テゴリにまとめて表形式で表示する。例として、図 6に決定木を、図 7にその決定木を 表形式で現したものを示す。
[0065] (ベン図形式)
ベン図には、異常状態と関係の大きい 3つの条件式と、その AND/ORで構成され るエリアに、それぞれのエリアに該当する全サンプル数と異常サンプルの数及びそれ らの比を表示する。
[0066] このベン図により、表形式で表されている条件のうち、どれが重要なのかを直感的 に把握することができる。また、条件の間の関係 (例えば、「条件 Aかつ条件 B」のとき に異常が発生するの力 それとも「条件 Aまたは条件 B」のときに異常が発生するのか など)を瞬時に把握することが可能になる。
[0067] ベン図の生成に用いる 3つの条件式は、決定木中に存在する全ての条件式につい て、それぞれの条件式を用いて全サンプルを分割したときの評価関数 SSFを評価し、 これらの条件式のうち、 SSFが大きかったもの 3つを、ベン図で使用するものとする。ま た、ベン図内のそれぞれのエリアについて、異常発生割合が高いケースほど色が濃 く表示されるようにし、より着目すべきポイントを分かりやすく表示する。
[0068] 図 6の決定木をベン図形式で表した例を図 8に示す。この図からは、異常が最も発 生しやすい状況は、(1)日付が 26日以降、(2)*.htmlに対するリクエストが lOOreq/sec 以上、(3)CPU使用率が 70%以上という 3つの条件が同時に発生している場合である ということが直感的に理解できる。
[0069] 本実施の形態においては、ベン図を用いて単に結果を出力するだけでなぐベン 図そのものにインタフェースとしての機能を持たせ、インタラクティブに解析結果に手 を加えて、新たな分析を行うことを可能にすることで、より柔軟な状況解析を可能にす る。このベン図インタフェースを Java Appletで作成したものスクリーンショットを図 9に 示す。
[0070] このプロトタイプにおいては、ベン図のそれぞれのエリアにおける条件式のパラメ一 タの種類をプルダウンメニューで、またパラメータの閾値をテキストボックスに値を直 接入力することで変更することが可能になっている。そして、ベン図の右下に用意さ れた Updateボタンを押すと、ユーザが変更した条件式に沿って、ベン図中の値やエリ ァの色の濃さが変化するようになって 、る。
[0071] [調査]
(条件)
本実施の形態を実際に多数のユーザによって利用されている環境に適用し、その 分析および評価を行った。
[0072] 図 10に分析対象システムの概要を示す。分析対象システムは、 4台の Webサーバ 兼アプリサーバと、 1台の DBサーバからなる Webシステムである。 4つずつ CPUが搭 載されている Webサーバ兼アプリサーバには、ロードバランサによりユーザリクエスト が均等に分配されるようになって 、る。
[0073] DBサーバは 8つの CPUを持っている。これら全てのサーバの OSは Solaris8 (登録商 標)であり、 Webサーバには Apache,アプリサーバには Fujitsu Interstage (Fujitsu Inte r stage, http://interstage.fujitsu.com/ )、 DBサ ~~ノヽに ίま Fujitsu Symfoware (Fujitsu S ymfoware, http://www.fujitsu.com/ services/ software/ symfoware/) ll用 LTV、る。
[0074] ユーザ力も上記システムに送信されてくるリクエストのうち、比較的発生回数および レスポンスタイムの大きいリクエスト (URL)を 1つ選択し、それを、本実施の形態におけ る分析対象リクエストとした。そのリクエストのレスポンスタイムは、 Apache Webサーバ のログ力も収集した。
[0075] また、ユーザリクエストをレスポンスコードや拡張子によって 17種類 (タイプ)に分類し 、それぞれのタイプに属するリクエストの発生頻度を、 Webログ力もカウントした。
[0076] また、図 11に示す計 96種類のリソース利用状況に関する情報を、 5台のサーバより 標準的な Unixコマンドによってそれぞれ獲得した。これらの情報を 26日間にわたり 1 0分間隔でサンプリングし、それらに 5種類の時刻情報 (年、月、 日、時、分)を加え、 総計 502種類のパラメータを、性能異常分析のためのパラメータとして準備した。
[0077] 上記のデータを分析するために、本実施の形態に係る異常分析装置を、 C言語を 用 ヽて Red Hat Enterprise Linux (Red Hat Enterprise Linux, http://www.redhat.com /software/rhel/)上に実装した。なお、前述の通りベン図インタフェースの部分のみ Ja va appletにより実装した。分析に用いた PCの CPUは Pentium (登録商標) 4、 3EGhz,メ モリは 1Gbyteである。
[0078] 本発明の評価関数およびパラメータ選択手法の効果を確認するために、以下のよ うに条件を変化させ分析を行った。
[0079] (パターン 1 :ゲイン)
比較のため、本実施の形態で説明したアルゴリズムにおいて、評価関数 SSFの代わ りに、 Information Gainを用いて分析を行う。
[0080] (パターン 2:パラメータの選択をしな 、場合)
決定木生成の評価関数には SSFを用いる力 全パラメータを使用した場合の決定 木のみを採用し、パラメータ探索のためのループを行わない。
[0081] (パターン 3 :本実施の形態)
本発明の実施の形態のアプローチそのものを使用する。評価関数 SSFを利用し、パ ラメータの探索を行う。
また、それぞれの条件下における分析結果の評価を行うために、以下の 3つの指標 を設定した。
[0082] (確度)
作成された決定木を、評価関数 TEF (式 5)によって評価する。この値が大きいほど、 正常サンプルと異常サンプルが適切に分離できていると評価できる。 [0083] (簡易性)
決定木において、異常サンプル全体の 10%以上の異常サンプルを含む決定木の 葉に対し、根力 葉に至る経路に現れるパラメータの個数をカウントし、決定木全体 で平均する。この値が小さければ小さいほど、少ないパラメータで状況が分析できて おり、好ましいと評価できる。
[0084] (計算時間)
決定木の生成に力かった時間およびパラメータ選択におけるループ回数をカウント し、その値を評価する。計算時間が小さい方が好ましい。
[0085] [結果]
(確度)
図 12に、それぞれの実験条件下における評価関数 TEFの値を示す。図より、決定 木の生成にゲインを用いた場合や、パラメータ探索を行わなカゝつた場合に比べて、 本実施の形態におけるアルゴリズムは高い TEFの値を示している。このことから、本実 施の形態における評価関数およびパラメータ選択手法は、分析の精度向上に大きく 寄与している。
[0086] (簡易性)
図 13に、各条件下で生成された決定木において、個々の異常状態の説明に必要 なパラメータの平均個数を示す。図 13より、評価関数としてゲインを用いた場合よりも 、 SSFを利用した場合の方が説明に必要なパラメータの個数が少な力つた。よって、 評価関数 SSFの利用は、状況の記述の簡潔化に寄与して!/、ると言える。
[0087] (計算時間)
図 14に実験パターン 1(ゲイン)とパターン 3(本実施の形態)における、計算時間とパ ラメータ探索のためのループ回数の関係を示す。図より、ゲインを用いた場合よりも、 SSFを用いた場合の方力 結果が収束するまでに力かるループの回数は多いが、決 定木の生成に力かる時間は非常に小さいことがわかる。また、ループ 1回あたりの平 均計算時間は、ゲインの場合が 334.11秒なのに対し、 SSFの方は 21.308秒と、約 1/15 になっている。これは、ゲインの算出に必要な対数の計算に時間が力かることや、生 成される決定木のサイズが大きくなるために、 1つの決定木を生成するのに力かる時 間が大きくなることなどが原因であると考えられる。このことから、評価関数 SSFの採用 は、精度や説明の簡潔さのみならず、計算時間の短縮にも寄与していると言える。
[0088] (ベン図出力)
上記の実験のうち、評価関数 TEFの値が一番大きカゝつた場合 (Pattern 3(本実施の 形態)閾値 5秒)のときのベン図形式での出力結果を図 15に例として示す。この図に おいては、 DB (データベース)サーバの I/O read回数が 143203回 /10分という条件と 、 DBサーバの総 Disk busy時間が 445秒以上 605秒以下 /10分という条件 (Diskが複数 あるので、総計力 ¾00秒 /10分以上になる場合もある)と、 4台目のアプリサーバのプロ セス間通信メッセージ関連システムコールの発行回数力 40回 /10分という 3つの条 件によりベン図が構成されている。
[0089] ベン図を見ると、 DBサーバに関する 2つの条件のいずれかにあてはまる状況下に おける異常発生割合は、ほとんどの場合にぉ 、てサンプル全体における平均異常発 生割合 (14.3%)を大きく上回っている。よって、このシステムにおける性能異常の原因 は、データベースサーバへのディスクアクセスの集中にあると考えられる。よって、デ ータベースサーバアプリケーションにおけるディスクアクセス方法を改善したり、分散 データベースサーバを利用したりすることにより、ディスクアクセスの集中を防ぐことに より、性能異常の大部分を解消できると考えられる。
[0090] 上述した本実施の形態によれば、次のような効果を奏する。
(1)多種多様なパラメータを出力する大規模システムにおいて、どのようなパラメータ 力 Sどれくらいの値になると性能異常が発生しやすくなるかを瞬時に把握でき、システ ムの性能改善に力かる時間やコストを大幅に削減することが可能になる。
(2)また、決定木の手法を利用して、観測時の状況を、性能異常の発生割合が高い 状況と、性能異常の発生割合が低い状況に分離し、性能異常の発生割合が高い場 合の条件を判断することで、また、決定木中のある状況を表す親ノードを、 2つの子ノ ードに分岐する際に、親ノードに属する正常値の大部分が一方の子ノードに所属し、 親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような 評価関数を用いて決定木を生成し、性能異常の発生割合が高!、場合の条件を判断 することで、異常が発生しやすい状況と正常な状況を、より少ない条件式で分離する ことが可能になるため、より少ない条件で異常が発生しやすい状況を説明することが 可會 になる。
(3)決定木を生成する際に、使用するパラメータの集合を探索的に変化させながら、 複数の決定木を生成し、その中から最適な一つの決定木を選択することで、性能異 常の発生割合が高い場合の条件を判断することで、より妥当な分析結果を得ることが 可會 になる。
(4)性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で 表し、性能異常の発生頻度や発生割合と、それらの性能異常が発生したときの条件 を、表形式およびベン図形式で出力することで、決定木そのものを出力するよりも、 性能異常が発生しやすい条件をより直感的に把握することが可能になる。
(5)ベン図の各領域の描画方法 (色や模様など)を、各領域が表す状況下における性 能異常発生頻度や発生回数に対応させて変化させることで、異なる条件下における 性能異常発生頻度や割合の差異をより直感的に把握することが可能になる。
(6)分析の出力結果におけるパラメータや閾値を任意に変更する手段と、その変更 による結果を図表に反映する手段を備えることにより、分析の結果として得られた条 件を任意に変更し、その変更した条件下における性能異常発生割合や発生頻度を 容易に確認することが可能になる。
[0091] 以上、本発明の実施の形態において、性能異常分析及びその表示方法をコンビュ ータにお 、て実行させるプログラムを、性能異常分析プログラムとして提供することが できる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させ ることによって、性能異常分析装置を構成するコンピュータに実行させることが可能と なる。ここで、上記コンピュータにより読取り可能な記録媒体としては、 ROMや RAM 等のコンピュータに内部実装される内部記憶装置、 CD— ROMやフレキシブルディ スク、 DVDディスク、光磁気ディスク、 ICカード等の可搬型記憶媒体や、コンピュータ プログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータべ ースや、更に回線上の伝送媒体をも含むものである。
産業上の利用可能性
[0092] 以上説明したように、本発明によれば、実運用中のシステムに容易に適用可能にな るように、サーバのログや基本コマンドの利用のみで採取可能な多種多様なパラメ一 タを扱うことができ、精度が高ぐ信頼度の高い性能異常分析装置、方法及びプログ ラム、並びにその表示方法を提供することができると V、う効果を奏する。

Claims

請求の範囲
[1] 複数のコンピュータ力もなるシステムの性能異常の分析をコンピュータに実行させる 性能異常分析プログラムであって、
システムの資源利用状況を取得する資源利用状況取得ステップと、
システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステ ップと、
システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処 理時間取得ステップと、
性能異常の有無を判断する性能異常有無判断ステップと、
前記資源利用状況取得ステップにより取得された資源利用状況とリクエスト発生頻 度取得ステップにより取得されたリクエストの発生頻度に関する情報と、前記性能異 常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性 能異常の発生割合が高くなる場合の条件を分析する条件分析ステップであって、決 定木の手法を用いて、決定木のある状況を表す親ノードを 2つの子ノードに分岐する 際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノード に属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数 を用いて前記決定木を生成し、性能異常の割合が高!ヽ場合の条件を判断する前記 条件分析ステップと
を備えてコンピュータに実行させる性能異常分析プログラム。
[2] 請求項 1に記載の性能異常分析プログラムにお 、て、
前記条件分析ステップは、前記評価関数として、親ノードに属する正常サンプルの 数 N及び異常サンプルの数 Aと、
0 0
一方の子ノードに属する異常サンプルの数 A及び他方の子ノードに属する正常サ
1
ンプルの数 Nの組、又は一方の子ノードに属する正常サンプルの数 N及び他方の
2 1
子ノードに属する異常サンプルの数 Aの組との 、ずれかの組におけるそれぞれのサ
2
ンプノレの数と
を用いた評価関数を用いることを特徴とする性能異常分析プログラム。
[3] 請求項 2に記載の性能異常分析プログラムにお 、て、 前記条件分析ステップは、前記評価関数として、 A /Aと N /Nとの積を用いること
1 0 2 0
を特徴とする性能異常分析プログラム。
[4] 請求項 1に記載の性能異常分析プログラムにお 、て、
前記条件分析ステップは、決定木を生成する際に、使用するパラメータの集合を探 索的に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を 選択することで、性能異常の発生割合が高 ヽ場合の条件を判断する性能異常分析 プログラム。
[5] 請求項 1に記載の性能異常分析プログラムにお 、て、
性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し
、性能異常の発生頻度又は発生割合と、それらの性能異常が発生したときの条件を
、表形式又はベン図形式で出力する分析結果出力ステップを備えることを特徴とす る性能異常分析プログラム。
[6] 複数のコンピュータ力 なるシステムの性能異常の分析を行う性能異常分析方法で あって、
システムの資源利用状況を取得する資源利用状況取得ステップと、
システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステ ップと、
システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処 理時間取得ステップと、
性能異常の有無を判断する性能異常有無判断ステップと、
前記資源利用状況取得ステップにより取得された資源利用状況とリクエスト発生頻 度取得ステップにより取得されたリクエストの発生頻度に関する情報と、前記性能異 常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性 能異常の発生割合が高くなる場合の条件を分析する条件分析ステップであって、決 定木の手法を用いて、決定木のある状況を表す親ノードを 2つの子ノードに分岐する 際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノード に属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数 を用いて前記決定木を生成し、性能異常の割合が高!ヽ場合の条件を判断する前記 条件分析ステップと
を備える性能異常分析方法。
[7] 請求項 6に記載の性能異常分析方法において、
前記条件分析ステップは、前記評価関数として、親ノードに属する正常サンプルの 数 N及び異常サンプルの数 Aと、
0 0
一方の子ノードに属する異常サンプルの数 A及び他方の子ノードに属する正常サ
1
ンプルの数 Nの組、又は一方の子ノードに属する正常サンプルの数 N及び他方の
2 1
子ノードに属する異常サンプルの数 Aの組との 、ずれかの組におけるそれぞれのサ
2
ンプノレの数と
を用いた評価関数を用いることを特徴とする性能異常分析方法。
[8] 請求項 7に記載の性能異常分析方法において、
前記条件分析ステップは、前記評価関数として、 A /Aと N /Nの積を用いることを
1 0 2 0
特徴とする性能異常分析方法。
[9] 請求項 6に記載の性能異常分析方法において、
前記条件分析ステップは、決定木を生成する際に、使用するパラメータの集合を探 索的に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を 選択することで、性能異常の発生割合が高 ヽ場合の条件を判断する性能異常分析 方法。
[10] 請求項 6に記載の性能異常分析方法において、
性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し 、性能異常の発生頻度又は発生割合と、それらの性能異常が発生したときの条件を 、表形式又はベン図形式で出力する分析結果出力ステップを備えることを特徴とす る性能異常分析方法。
[11] 複数のコンピュータ力 なるシステムの性能異常を分析する性能異常分析装置で あって、
システムの資源利用状況を取得する資源利用状況取得部と、
システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得部と システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処 理時間取得部と、
性能異常の有無を判断する性能異常有無判断部と、
前記資源利用状況取得部により取得された資源利用状況とリクエスト発生頻度取 得部により取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断 部により判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合 が高くなる場合の条件を分析する条件分析部であって、決定木の手法を用いて、決 定木のある状況を表す親ノードを 2つの子ノードに分岐する際に、親ノードに属する 正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部 分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を 生成し、性能異常の割合が高!ヽ場合の条件を判断する前記条件分析部と
を備えてなる性能異常分析装置。
[12] 請求項 11に記載の性能異常分析装置にぉ 、て、
前記条件分析部は、前記評価関数として、親ノードに属する正常サンプルの数 N
0 及び異常サンプルの数 Aと、
0
一方の子ノードに属する異常サンプルの数 A及び他方の子ノードに属する正常サ
1
ンプルの数 Nの組、又は一方の子ノードに属する正常サンプルの数 N及び他方の
2 1
子ノードに属する異常サンプルの数 Aの組との 、ずれかの組におけるそれぞれのサ
2
ンプノレの数と
を用いた評価関数を用いることを特徴とする性能異常分析装置。
[13] 請求項 12に記載の性能異常分析装置において、
前記条件分析部は、前記評価関数として、 A /Aと N /Nの積を用いることを特徴
1 0 2 0
とする性能異常分析装置。
[14] 請求項 11に記載の性能異常分析装置にぉ 、て、
前記条件分析部は、決定木を生成する際に、使用するパラメータの集合を探索的 に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を選択 することで、性能異常の発生割合が高!ヽ場合の条件を判断する分析装置
[15] 請求項 11の性能異常分析装置において、 性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し 、性能異常の発生頻度又は発生割合と、それらの性能異常が発生したときの条件を 、表形式又はベン図形式で出力する分析結果出力部を備えることを特徴とする性能 異常分析装置。
[16] 請求項 15に記載の性能異常分析装置において、
前記分析結果出力部は、ベン図の各領域の描画方法を、各領域が表す状況下に おける性能異常発生頻度又は発生回数に対応させて変化させることで、異なる条件 下における性能異常発生頻度の差異を視覚的に表すことを特徴とする性能異常分 析装置。
[17] 請求項 15に記載の性能異常分析装置において、
前記分析結果出力部は、分析の出力結果におけるパラメータ又は閾値を任意に変 更する手段と、その変更による結果を図表に反映する手段を備えることを特徴とする 性能異常分析装置。
[18] 性能異常の発生割合が高くなる場合の条件をパラメータとその閾値の集合で表し、 性能異常の発生割合と該性能異常が発生するときの条件をベン図形式で表示する ようにした性能異常分析装置の分析結果表示方法。
[19] 請求項 8に記載の性能異常分析装置の分析結果表示方法において、
ベン図の各領域の描画方法を、各領域が表す状況下における性能異常発生頻度 又は発生回数に対応させて変化させることで、異なる条件下における性能異常発生 頻度の差異を視覚的に表すことを特徴とする性能異常分析装置の分析結果表示方 法。
[20] 請求項 18に記載の性能異常分析装置の分析結果表示方法において、
分析の出力結果におけるパラメータ又は閾値を任意に変更することができ、その変 更による結果を図表に反映することを特徴とする性能異常分析装置の分析結果表示 方法。
PCT/JP2005/019974 2005-10-31 2005-10-31 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法 WO2007052327A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007542548A JP4983604B2 (ja) 2005-10-31 2005-10-31 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法
PCT/JP2005/019974 WO2007052327A1 (ja) 2005-10-31 2005-10-31 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法
EP05800458.1A EP1944699B1 (en) 2005-10-31 2005-10-31 Performance failure analysis method, device and program
US12/110,616 US7970584B2 (en) 2005-10-31 2008-04-28 Performance abnormality analysis apparatus, method, and program, and analysis result display method for performance abnormality analysis apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/019974 WO2007052327A1 (ja) 2005-10-31 2005-10-31 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/110,616 Continuation US7970584B2 (en) 2005-10-31 2008-04-28 Performance abnormality analysis apparatus, method, and program, and analysis result display method for performance abnormality analysis apparatus

Publications (1)

Publication Number Publication Date
WO2007052327A1 true WO2007052327A1 (ja) 2007-05-10

Family

ID=38005491

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/019974 WO2007052327A1 (ja) 2005-10-31 2005-10-31 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法

Country Status (4)

Country Link
US (1) US7970584B2 (ja)
EP (1) EP1944699B1 (ja)
JP (1) JP4983604B2 (ja)
WO (1) WO2007052327A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217382A (ja) * 2008-03-07 2009-09-24 Nec Corp 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP2010098360A (ja) * 2008-10-14 2010-04-30 Fujitsu Ltd ループバック装置及びミラーリング方法
JP2016057783A (ja) * 2014-09-08 2016-04-21 京セラドキュメントソリューションズ株式会社 アプリケーション作成プログラム及び情報処理装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210212A (ja) * 2007-02-27 2008-09-11 Nec Corp 項目選択装置及び項目選択方法並びにプログラム
GB2473194A (en) * 2009-09-02 2011-03-09 1E Ltd Monitoring the performance of a computer based on the value of a net useful activity metric
US8934352B2 (en) 2011-08-30 2015-01-13 At&T Intellectual Property I, L.P. Hierarchical anomaly localization and prioritization
US10146607B2 (en) * 2013-11-26 2018-12-04 Anunta Technology Management Services Ltd. Troubleshooting of cloud-based application delivery
CN110378591A (zh) * 2019-07-11 2019-10-25 仲恺农业工程学院 一种基于决策树的作物育种信息测定系统及方法
CN110837432A (zh) * 2019-11-14 2020-02-25 北京金山云网络技术有限公司 服务集群中异常节点的确定方法、装置和监控服务器
CN113360348B (zh) * 2021-06-30 2022-09-09 北京字节跳动网络技术有限公司 异常请求处理方法、装置、电子设备和存储介质
US20230071606A1 (en) * 2021-08-18 2023-03-09 Rakuten Symphony Singapore Pte. Ltd. Ai model used in an ai inference engine configured to avoid unplanned downtime of servers due to hardware failures
US11966757B2 (en) * 2022-08-30 2024-04-23 SOURCE Ltd. System and method for selecting an execution strategy depending on validations

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02267631A (ja) * 1989-04-07 1990-11-01 Fujitsu Ltd 決定木生成処理方式
JPH08278901A (ja) * 1995-04-04 1996-10-22 Kokusai Denshin Denwa Co Ltd <Kdd> 決定木形式の診断知識を用いた診断装置
JPH09330224A (ja) * 1996-06-10 1997-12-22 Fujitsu Ltd 決定木生成装置
US6351561B1 (en) 1999-03-26 2002-02-26 International Business Machines Corporation Generating decision-tree classifiers with oblique hyperplanes
JP2002342182A (ja) 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
JP2003298655A (ja) * 2002-04-05 2003-10-17 Nippon Telegr & Teleph Corp <Ntt> サイト領域内ボトルネック特定方法
JP2004252972A (ja) 2003-01-31 2004-09-09 Sharp Corp 入力属性条件決定装置、入力属性条件決定方法、入力属性条件決定プログラム、データ分析装置、データ分析方法、および、データ分析プログラム
US20040199484A1 (en) 2003-04-04 2004-10-07 Laurence Smith Decision tree analysis
US20050096877A1 (en) 2003-10-30 2005-05-05 Fujitsu Limited System and method for determination of load monitoring condition and load monitoring program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7526405B2 (en) * 2005-10-14 2009-04-28 Fisher-Rosemount Systems, Inc. Statistical signatures used with multivariate statistical analysis for fault detection and isolation and abnormal condition prevention in a process

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02267631A (ja) * 1989-04-07 1990-11-01 Fujitsu Ltd 決定木生成処理方式
JPH08278901A (ja) * 1995-04-04 1996-10-22 Kokusai Denshin Denwa Co Ltd <Kdd> 決定木形式の診断知識を用いた診断装置
JPH09330224A (ja) * 1996-06-10 1997-12-22 Fujitsu Ltd 決定木生成装置
US6351561B1 (en) 1999-03-26 2002-02-26 International Business Machines Corporation Generating decision-tree classifiers with oblique hyperplanes
JP2002342182A (ja) 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
JP2003298655A (ja) * 2002-04-05 2003-10-17 Nippon Telegr & Teleph Corp <Ntt> サイト領域内ボトルネック特定方法
JP2004252972A (ja) 2003-01-31 2004-09-09 Sharp Corp 入力属性条件決定装置、入力属性条件決定方法、入力属性条件決定プログラム、データ分析装置、データ分析方法、および、データ分析プログラム
US20040199484A1 (en) 2003-04-04 2004-10-07 Laurence Smith Decision tree analysis
US20050096877A1 (en) 2003-10-30 2005-05-05 Fujitsu Limited System and method for determination of load monitoring condition and load monitoring program
JP2005135130A (ja) * 2003-10-30 2005-05-26 Fujitsu Ltd 負荷監視条件決定プログラム,負荷監視条件決定システム,負荷監視条件決定方法および負荷監視プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BANDAR, Z. ET AL.: "Genetic Algorithm Based Multiple Decision Tree Induction", 6TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING, IEEE, vol. 2, 1999, pages 429 - 434
D.G HART; J.L. HELLERSTEIN; PC. YUE: "Failure Diagnosis Using Detection Trees Automated Drill Down: An Approach to Automated Problem Isolation for Performance Management", PROC. OF THE COMPUTER MEASUREMENT GROUP, 1999
ISHII: "Data kara Shoki o Tsukamitoru Theme Betsu Data Mining Jissen Koza Dai 8 Kai/ QC eno Oyo", NETWORK COMPUTING, vol. 12, no. 10, 1 October 2000 (2000-10-01), pages 84 - 89, XP003012620 *
KIKUCHI, S. ET AL.: "Proceedings of the IEEE International Performance, Computing, and Communications Conference", vol. 2006, 2006, INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERING, article "Performance problem analysis method for Web systems using multiple decision trees", pages: 415 - 424
M. CHEN; A.X. ZHENG; J. LLOYD; M.I. JORDAN; E. BREWER: "Failure Diagnosis Using Detection Trees", PROC. OF INTERNATIONAL CONFERENCE ON AUTOMATIC COMPUTING, 2004
T HORIKAWA: "Application of Event Trace Framework for Performance Problem Solutions", IPSJ SIG TECHNICAL REPORT, 2003

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217382A (ja) * 2008-03-07 2009-09-24 Nec Corp 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
US8448025B2 (en) 2008-03-07 2013-05-21 Nec Corporation Fault analysis apparatus, fault analysis method, and recording medium
JP2010098360A (ja) * 2008-10-14 2010-04-30 Fujitsu Ltd ループバック装置及びミラーリング方法
JP2016057783A (ja) * 2014-09-08 2016-04-21 京セラドキュメントソリューションズ株式会社 アプリケーション作成プログラム及び情報処理装置

Also Published As

Publication number Publication date
JPWO2007052327A1 (ja) 2009-04-30
US20090048807A1 (en) 2009-02-19
EP1944699A4 (en) 2009-04-08
US7970584B2 (en) 2011-06-28
EP1944699B1 (en) 2015-07-08
EP1944699A1 (en) 2008-07-16
JP4983604B2 (ja) 2012-07-25

Similar Documents

Publication Publication Date Title
JP4983604B2 (ja) 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法
US20200250024A1 (en) High-volume distributed script error handling
US9996409B2 (en) Identification of distinguishable anomalies extracted from real time data streams
KR101828506B1 (ko) Jvm 및 크로스-jvm 호출 스택들의 시각화
US10002144B2 (en) Identification of distinguishing compound features extracted from real time data streams
US6973415B1 (en) System and method for monitoring and modeling system performance
US8533536B2 (en) Monitoring data categorization and module-based health correlations
US20050289071A1 (en) Method and system for clustering computers into peer groups and comparing individual computers to their peers
US11144376B2 (en) Veto-based model for measuring product health
US7685475B2 (en) System and method for providing performance statistics for application components
JP2002342128A (ja) ホストマシンからサービスの健全性を抽出する方法
US7197428B1 (en) Method for performance monitoring and modeling
US20070030853A1 (en) Sampling techniques
EP4182796B1 (en) Machine learning-based techniques for providing focus to problematic compute resources represented via a dependency graph
US7369967B1 (en) System and method for monitoring and modeling system performance
KR20070080313A (ko) 클라이언트 단말로 제공되는 서비스 성능 분석 방법 및시스템
US7162390B2 (en) Framework for collecting, storing, and analyzing system metrics
US8073946B1 (en) Monitoring of metrics to identify abnormalities in a large scale distributed computing environment
Bielefeld Online performance anomaly detection for large-scale software systems
US10706108B2 (en) Field name recommendation
CN114598719A (zh) 智慧城市物联事件管理方法、装置及可读介质
Geethika et al. Anomaly detection in high-performance api gateways
WO2006110235A2 (en) Playbook automation
Teggi et al. AIOPS Prediction for Server Stability Based on ARIMA Model
Kleehaus et al. Multi-layer monitoring and visualization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007542548

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005800458

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005800458

Country of ref document: EP