WO2014068980A1 - 分散データ処理システム、及び、分散データ処理方法 - Google Patents

分散データ処理システム、及び、分散データ処理方法 Download PDF

Info

Publication number
WO2014068980A1
WO2014068980A1 PCT/JP2013/006437 JP2013006437W WO2014068980A1 WO 2014068980 A1 WO2014068980 A1 WO 2014068980A1 JP 2013006437 W JP2013006437 W JP 2013006437W WO 2014068980 A1 WO2014068980 A1 WO 2014068980A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing
data
types
pair
predetermined arithmetic
Prior art date
Application number
PCT/JP2013/006437
Other languages
English (en)
French (fr)
Inventor
慎一郎 吉田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to EP13851403.9A priority Critical patent/EP2916222A4/en
Priority to US14/439,082 priority patent/US10296493B2/en
Priority to CN201380057593.9A priority patent/CN104769551B/zh
Priority to JP2014544322A priority patent/JP6070717B2/ja
Publication of WO2014068980A1 publication Critical patent/WO2014068980A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]

Definitions

  • the present invention relates to a distributed data processing system and a distributed data processing method, and more particularly to a distributed data processing system and a distributed data processing method for processing each pair of a plurality of types of data.
  • Patent Document 1 describes an example of an operation management system that models a system using time series information of system performance and detects a failure of the system using a generated model.
  • the operation management system described in Patent Document 1 generates a system correlation model by determining a correlation function for each pair of a plurality of metrics based on measurement values of a plurality of metrics of the system. Then, the operation management system detects the destruction of the correlation (correlation destruction) using the generated correlation model, and determines the cause of the failure based on the correlation destruction. In this way, the technique of analyzing a failure factor based on correlation destruction is called invariant relation analysis.
  • correlation functions are calculated for all pairs of multiple metrics.
  • the number of pairs for which the correlation function is calculated is proportional to the square of the number of metrics. For this reason, when the scale of the system (the number of metrics) is large, the number of pairs for calculating the correlation function becomes enormous, and it becomes difficult to generate a correlation model within a predetermined time.
  • Non-Patent Document 1 Hadoop Distributed File System
  • MapReduce MapReduce
  • Patent Document 2 discloses a method of determining a node to execute processing based on a communication delay between nodes in a distributed processing system such as Hadoop.
  • each pair of a plurality of metrics is assigned to any node, and each node calculates a correlation function for the assigned pair.
  • each node needs to acquire metric data related to the assigned pair from the node where the data is arranged, and data transfer between the nodes occurs frequently.
  • Hadoop there is a problem that distributed processing for each pair of multiple types of data cannot be executed efficiently.
  • An object of the present invention is to provide a distributed data processing system and a distributed data processing method capable of solving the above-described problems and efficiently executing distributed processing for each pair of a plurality of types of data.
  • a distributed data processing system is a distributed data processing system that performs predetermined arithmetic processing on each pair of N types (N is a natural number of 2 or more) of data, and the N types Management means for allocating each of the first to N ⁇ 1th of the plurality of processing means to any of the plurality of processing means, and each of the i th (i is 1 or more and N ⁇ 1 or less) assigned by the management means
  • a plurality of processing means for executing the predetermined arithmetic processing on a pair of i + 1 to Nth data.
  • a management apparatus is a management apparatus in a distributed data processing system that performs a predetermined arithmetic process on each pair of N types of data (N is a natural number of 2 or more).
  • N is a natural number of 2 or more.
  • Each of the first to N ⁇ 1 of the seeds is assigned to the i-th data (i is a natural number greater than or equal to 1 and less than or equal to N ⁇ 1) assigned by the management device and each of the i + 1 to Nth data.
  • Management means for assigning to any one of a plurality of processing devices that execute the predetermined arithmetic processing for the pair.
  • a processing apparatus is a processing apparatus in a distributed data processing system that performs predetermined arithmetic processing on each pair of N types (N is a natural number of 2 or more) of data, I-th data (i is a natural number greater than or equal to 1 and less than or equal to N-1) assigned by a management device that assigns each of the first to N ⁇ 1 of the seeds to any of the plurality of processing devices, and i + 1 To N-th data pair, the processing means for executing the predetermined arithmetic processing.
  • N is a natural number of 2 or more
  • I-th data i is a natural number greater than or equal to 1 and less than or equal to N-1 assigned by a management device that assigns each of the first to N ⁇ 1 of the seeds to any of the plurality of processing devices, and i + 1 To N-th data pair, the processing means for executing the predetermined arithmetic processing.
  • a distributed data processing method is a distributed data processing method for performing predetermined arithmetic processing on each pair of N types (N is a natural number of 2 or more) of data, and , Each of the first to N ⁇ 1 of the N types is assigned to any of a plurality of processing means, and in each of the plurality of processing means, the i-th (i is The predetermined calculation process is performed on a pair of data of a natural number of 1 or more and N ⁇ 1 or less) and each of i + 1 to Nth data.
  • the first computer-readable recording medium is a distributed data processing system that performs predetermined arithmetic processing on each pair of N types (N is a natural number of 2 or more) of data.
  • a program for executing processing assigned to any of the plurality of processing devices that execute the predetermined arithmetic processing is stored for a pair of data of a natural number of 1 or less and each of the i + 1 to Nth data.
  • the second computer-readable recording medium is a distributed data processing system that performs predetermined arithmetic processing on each pair of N types of data (N is a natural number of 2 or more).
  • i stores a program for executing the predetermined calculation process for a pair of data of a natural number of 1 or more and N ⁇ 1 or less) and each of the i + 1 to Nth data.
  • the effect of the present invention is that the distributed processing for each pair of a plurality of data can be executed efficiently.
  • FIG. 2 is a block diagram showing the configuration of the operation management system 500 in the first embodiment of the present invention.
  • the operation management system 500 generates a correlation model of the analysis target system 600 based on the performance information collected from the analysis target system 600, and detects a failure or an abnormality of the analysis target system 600 using the generated correlation model. Do.
  • the analysis target system 600 includes one or more monitored devices that execute service processing such as a WEB server, an application server (AP server), and a database server (DB server).
  • the monitored device measures actual measurement data (measurement values) of a plurality of types of performance values at regular intervals (predetermined performance information collection cycle), and transmits them to the operation management system 500.
  • the performance value item for example, the usage rate and usage of computer resources such as CPU (Central Processing Unit) usage rate, memory usage rate, disk access frequency, network usage rate, and the like are used.
  • CPU Central Processing Unit
  • a set of monitored devices and performance value items is a metric (performance type or simply a type), and a set of metric values of N types (N is a natural number of 2 ⁇ N) measured at the same time. Is performance information.
  • the metric corresponds to an element in Patent Document 1.
  • the operation management system 500 includes a distributed data processing system (correlation model generation system) 100, an information collection device 200, a correlation destruction detection device 300, and a failure analysis device 400.
  • the information collection device 200 collects performance information from the monitored device of the analysis target system 600 at a predetermined performance information collection cycle, and transmits it to the management device 110 of the distributed data processing system 100.
  • the distributed data processing system 100 generates a correlation model of the analysis target system 600 based on the performance information.
  • the correlation model includes a correlation function for each pair of N metrics.
  • the correlation function is a function that predicts the time series of the value of the other metric from the time series of the value of one metric in the metric pair, and indicates the correlation of the metric pair.
  • the distributed data processing system 100 includes a management device 110, a plurality of processing devices 120 (120_1, 120_2, etc, And a processing result collection device 130.
  • the management device 110 includes a management unit 111 (or master) and a data storage unit 112.
  • the data storage unit 112 stores the time series of the performance information received from the information collection device 200 as the processing data 113.
  • FIG. 5 is a diagram illustrating an example of the processing data 113 according to the first embodiment of this invention.
  • the performance information includes measured values (data) of N types of metrics (m 1 , m 2 ,..., M N ).
  • the management unit 111 assigns each of the first to N ⁇ 1th of the N types of metrics to the processing device 120.
  • the processing device 120 includes a processing unit 121 (or a worker) and a temporary storage unit 122.
  • the processing unit 121 calculates a correlation function for a pair of a metric assigned by the management apparatus 110 and another metric.
  • the processing unit 121 determines that the i-th metric (m i ) and the (i + 1) to N-th metric (m j , i + 1 ⁇ j ⁇ N).
  • the correlation function is calculated for each pair.
  • the processing unit 121 acquires the measurement value of each metric pair from the management apparatus 110, and determines the coefficient of the correlation function by performing system identification processing in the same manner as the operation management apparatus of Patent Document 1.
  • the processing unit 121 stores the metric measurement value acquired from the management apparatus 110 in the temporary storage unit 122.
  • the temporary storage unit 122 temporarily stores (caches) the metric data acquired from the data storage unit 112.
  • FIG. 6 is a diagram illustrating an example of data stored in the temporary storage unit 122 according to the first embodiment of this invention.
  • the temporary storage unit 122 includes a temporary storage unit 122a (first temporary storage unit) that stores data of the i-th metric (m i ), and i + 1 to N-th metrics (m j , It may be divided into a temporary storage unit 122b (second temporary storage unit) that stores data of (i + 1 ⁇ j ⁇ N).
  • the temporary storage unit 122b may store data of a predetermined number of metrics from the i + 1th to Nth metrics (m j , i + 1 ⁇ j ⁇ N).
  • the temporary storage unit 122b may store the metric data in, for example, a FIFO (First-In First-Out) format. Further, in this case, the temporary storage unit 122b may store the metric data in a format other than the FIFO, such as a format in which as many metrics with large i as possible remain.
  • a FIFO First-In First-Out
  • the temporary storage unit 122b may store the metric data in a format other than the FIFO, such as a format in which as many metrics with large i as possible remain.
  • the processing result collection device 130 includes a processing result collection unit 131 and a processing result storage unit 132.
  • the processing result collection unit 131 acquires the correlation function calculated in each processing device 120 and stores it in the processing result storage unit 132 as the processing result 133.
  • the processing result storage unit 132 stores the processing result 133.
  • the processing result 133 indicates a correlation model of the analysis target system 600.
  • FIG. 7 is a diagram illustrating an example of the processing result 133 according to the first embodiment of this invention.
  • f (i, j) indicates a correlation function for pairs of input metric m i and the output metric m j.
  • the coefficients ⁇ and ⁇ are determined for the pair of mi and m j .
  • another function expression may be used as the correlation function.
  • Correlation destruction detection apparatus 300 detects the correlation destruction of the correlation included in the correlation model using newly input performance information, as in Patent Document 1.
  • the failure analysis apparatus 400 estimates the failure factor based on the detection result of the correlation destruction, as in Patent Document 1.
  • the management device 110, the processing device 120, the processing result collection device 130, the information collection device 200, the correlation destruction detection device 300, and the failure analysis device 400 each include a CPU and a storage medium that stores the program. It may be a computer that operates based on the control.
  • the management device 110, the processing device 120, the processing result collection device 130, the information collection device 200, the correlation destruction detection device 300, and the failure analysis device 400 are each a virtual computer (virtual machine) constructed on a computer. ) Also, some of the management device 110, the processing device 120, the processing result collection device 130, the information collection device 200, the correlation destruction detection device 300, and the failure analysis device 400 may constitute one device. .
  • FIG. 3 is a flowchart showing the processing of the management unit 111 in the first embodiment of the present invention.
  • the processing data 113 as shown in FIG. 5 relating to the N types of metrics is stored in the data storage unit 112 of the management device 110. Assume.
  • the management unit 111 of the management apparatus 110 initializes the metric number to 1 (step S101).
  • the management unit 111 waits for a request from the processing unit 121 of each processing device 120 (step S102).
  • the management unit 111 transmits the metric number to the processing unit 121 (step S104).
  • the management unit 111 adds 1 to the metric number (step S105).
  • the management unit 111 acquires the metric data of the requested metric number from the data storage unit 112, and transmits the metric data to the processing unit 121. (Step S106).
  • the management unit 111 repeatedly executes the processes of steps S102 to S106.
  • FIG. 4 is a flowchart showing the processing of the processing unit 121 in the first embodiment of the present invention.
  • the processing unit 121 of each processing device 120 requests the metric number i from the management unit 111 (step S201), and acquires the metric number i.
  • Processing unit 121 data of the metric m i is determined whether the temporary storage section 122b (step S202).
  • the processing unit 121 acquires the data of the metric m i from the temporary storage section 122b, it is stored in the temporary storage unit 122a (step S203).
  • step S202 If not in the temporary storage unit 122b (step S202 / N), the processing unit 121, the management unit 111, requesting the data of the metric m i (step S204), and acquires the data of the metric m i.
  • Processing unit 121 stores the data of the metric m i in the temporary storage unit 122a (step S205).
  • the processing unit 121 initializes the metric number j to i + 1 (step S206).
  • the processing unit 121 determines whether or not the data of the metric m j is in the temporary storage unit 122b (Step S207).
  • the processing unit 121 When not in the temporary storage unit 122b (step S207 / N), the processing unit 121 requests the data of the metric m j from the management unit 111 (step S208), and acquires the data of the metric m j .
  • the processing unit 121 stores the data of the metric m j in the temporary storage unit 122b (Step S209).
  • the metric data is stored in the temporary storage unit 122b, for example, in the FIFO format.
  • Processing unit 121 to the pair of metrics m i and m j, and calculates the correlation function f (i, j) (step S210).
  • the processing unit 121 determines that the correlation function f (j, j, i) is also calculated.
  • the processing unit 121 transmits the calculated correlation function to the processing result collection unit 131 of the processing result collection device 130 (step S211).
  • the processing result collection unit 131 sets the correlation function acquired from the processing device 120 in the processing result 133 of the processing result storage unit 132.
  • the processing unit 121 adds 1 to the metric number j (step S212). If j is N or less (step S213 / Y), the processing of steps S207 to 212 is repeated (step S213).
  • processing unit 121 repeats the processing of steps S201 to S213.
  • the management unit 111 sequentially assigns metric numbers from 1 to N-1 to the processing unit 121.
  • the processing unit 121_1 acquires the data of the metric m 1 from the management unit 111 and stores it in the temporary storage unit 122a.
  • the processing unit 121_1 acquires the data of the metric m 2 from the management unit 111 and stores it in the temporary storage unit 122b.
  • the processing unit 121_1 calculates a correlation function f (1,2) and a correlation function f (2,1) for the metric pair (m 1 , m 2 ).
  • the processing unit 121_1, from the management unit 111 acquires data of the metric m 3, is stored in the temporary storage unit 122b.
  • the processing unit 121_1 calculates the correlation function f (1, 3) and the correlation function f (3, 1) for the metric pair (m 1 , m 3 ). In this way, the processing unit 121_1 performs metric pairs (m 1 , m 2 ), (m 1 , m 3 ), (m 1 , m 4 ), ..., (m 1 , m N ) Correlation functions f (1,2), f (1,3), f (1,4), ..., f (1, N), and correlation functions f (2,1), f (3,1), f (4,1),..., f (N, 1) (correlation function group 134_1 and correlation function group 134_2 in the processing result 133 of FIG. 7) are calculated.
  • Processing unit 121_2, from the management unit 111 acquires data of the metric m 2, is stored in the temporary storage unit 122a.
  • the processing unit 121_2, from the management unit 111 acquires data of the metric m 3, is stored in the temporary storage unit 122b.
  • the processing unit 121_2 calculates the correlation function f (2, 3) and the correlation function f (3, 2) for the metric pair (m 2 , m 3 ).
  • the processing unit 121_2 performs the correlation function f (2, 3) on the metric pairs (m 2 , m 3 ), (m 2 , m 4 ),..., ( M 2 , m N ). , F (2,4),..., F (2, N), and correlation functions f (3,2), f (4,2),..., F (N, 2) (processing result 133 in FIG. 7) Correlation function group 135_1 and correlation function group 135_2) are calculated.
  • the processing unit 121_1 acquires a metric number k (k is i ⁇ k ⁇ N ⁇ 1 acquired last time) from the management unit 111.
  • the processing unit 121_1 performs correlation functions f (k, k + 1), f (k, k) on the metric pairs (m k , m k + 1 ), (m k , m k + 2 ),..., ( M k , m N ).
  • k + 2),..., f (k, N) and correlation functions f (k + 1, k), f (k + 2, k),..., f (N, k) are calculated.
  • the processing unit 121_1 acquires the data of the metric m k from the temporary storage unit 122b, saves it in the temporary storage unit 122a, and uses it. Further, when there is data of metrics m k + 1 to m N in the temporary storage unit 122b, the processing unit 121_1 uses those data.
  • the correlation function is calculated for all pairs of N types of metrics by the plurality of processing units 121.
  • the processing result 133 (correlation model) as shown in FIG. Stored in the unit 132.
  • FIG. 1 is a block diagram showing a characteristic configuration of the first embodiment of the present invention.
  • the distributed data processing system 100 performs predetermined arithmetic processing on each pair of N types of data (N is a natural number of 2 or more).
  • the distributed data processing system 100 includes a management unit 111 and a plurality of processing units 121.
  • the management unit 111 assigns each of the first to N ⁇ 1 of the N types to any of the plurality of processing units 121.
  • Each of the plurality of processing units 121 is predetermined for a pair of i-th (i is a natural number greater than or equal to 1 and less than or equal to N ⁇ 1) data and i + 1 to Nth data assigned by the management unit 111.
  • the calculation process is executed.
  • the management unit 111 assigns each of the first to N ⁇ 1 of the N types to any one of the plurality of processing units 121, and each of the plurality of processing units 121 assigns them by the management unit 111. This is because a predetermined calculation process is performed on a pair of the i-th data and each of the i + 1 to Nth data.
  • the management unit 111 sequentially assigns each of the first to N ⁇ 1 of the N types, and the processing unit 121 stores the i + 1 to Nth data in the temporary storage unit 122b, whereby the processing unit In 121, the k-th data (k is i ⁇ k ⁇ N ⁇ 1) acquired last time and the N-th data from k + 1 are stored in the temporary storage unit 122b, so that the number of times of data transfer is further increased. Reduced.
  • the load related to I / O (Input / Output) of the management device 110, each processing device 120, and the processing result collection device 130 is reduced by reducing the number of times of data transfer. .
  • the processing unit 121 is dynamically added so that the calculation of correlation functions for all pairs of N metrics can be completed within the processing completion time.
  • FIG. 8 is a block diagram showing the configuration of the operation management system 500 according to the second embodiment of the present invention.
  • the distributed data processing system 100 includes an operating processing device 120 (120_1, 120_2, etc And a stopped processing device 120 (120_4, 120_5,).
  • the processing apparatus 120 in operation calculates the correlation function by performing the processes of steps S201 to S213 (FIG. 4).
  • the management device 110 further includes a processing device control unit 114 (or control unit) and an operation state storage unit 115.
  • the operation state storage unit 115 stores operation state information 116 indicating the operation state of the processing device 120.
  • FIG. 10 is a diagram illustrating an example of the operation state information 116 in the second exemplary embodiment of the present invention.
  • the operation state information 116 includes an identifier of the processing device 120 and an operation state (operating or stopped) of the processing device 120.
  • the processing device control unit 114 calculates a prediction processing time necessary for calculating correlation functions for all pairs of N types of metrics by the active processing device 120, and based on the prediction processing time, the processing device control unit 114 is stopped. The processing device 120 is activated (the processing device 120 is added).
  • FIG. 9 is a flowchart showing the processing of the processing device control unit 114 in the second embodiment of the present invention.
  • the processing devices 120_1 to 3 are operating, the processing devices 120_4 to 6 are stopped, and the operating state information 116 as shown in FIG. Further, it is assumed that the correlation function is calculated by the processing apparatuses 120_1 to 3 in operation.
  • the processing device control unit 114 of the management device 110 performs processing for all pairs of N types of metrics after a predetermined elapsed time from the request for the first metric number from the processing unit 121 (start of calculation of the correlation function by the processing unit 121).
  • a prediction processing time is calculated (step S301).
  • the processing device control unit 114 calculates the predicted processing time for all pairs based on the elapsed time and the number of pairs for which the correlation function has been calculated in the processing result 133.
  • the processing device control unit 114 When the calculated predicted processing time exceeds the processing completion time (step S302 / Y), the processing device control unit 114 refers to the operating state information 116 and is necessary for calculating the correlation function for all pairs within the processing completion time.
  • the number of processing devices 120 is calculated (step S303).
  • the processing completion time is set in advance by an administrator or the like based on the time when the correlation model changes.
  • the processing device control unit 114 Based on the above-described elapsed time, the number of pairs for which correlation functions have been calculated, and the number of active processing devices 120 acquired from the operating state information 116, the processing device control unit 114 performs all processing within the processing completion time.
  • the number of processing devices 120 necessary to calculate the correlation function for the pair is calculated.
  • the processing device control unit 114 operates the stopped processing device 120 so that the number of operating processing devices 120 is the calculated number (step S304).
  • the processing device control unit 114 updates the operation state related to the activated processing device 120 in the operation state information 116.
  • the newly operating processing device 120 performs the processing of steps S201 to S213, thereby calculating a correlation function.
  • the processing device control unit 114 sets the predicted processing time to 3 / Calculate as 2 ⁇ T. Since the processing device control unit 114 needs to calculate 2/3 correlation functions of all the pairs for the remaining 1 ⁇ 2 ⁇ T of the predetermined processing completion time, the processing device control unit 114 determines the number of processing devices 120 required. It is calculated as 6 which is 2 times. The processing device control unit 114 operates the stopped processing devices 120_4 to 6-6. Then, in addition to the processing devices 120_1 to 3, the processing devices 120_4 to 6 calculate a correlation function.
  • the processing device control unit 114 may present the calculated predicted processing time to an administrator or the like, and operate the stopped processing device 120 in accordance with an instruction from the administrator or the like.
  • processing device control unit 114 may calculate the number of necessary processing devices 120 based on the load status of each processing device 120 and operate the processing devices 120 that are stopped.
  • the processing device control unit 114 may add the processing device 120 by deploying a new virtual machine on the computer.
  • the calculation of correlation functions for all pairs of N types of metrics can be completed within the processing completion time.
  • the reason is that when the processing device control unit 114 calculates the number of processing devices 120 necessary to calculate the correlation function for all pairs within the processing completion time when the predicted processing time is larger than the processing completion time, This is because the addition of the device 120 accelerates the correlation function calculation process.
  • the correlation function calculation process can be easily accelerated.
  • the reason is that the processing of the management device 110 and each processing device 120 does not depend on the number of processing devices 120, and the processing devices 120 can be easily added.
  • the case where the correlation function is calculated for each pair of the plurality of types of data by the plurality of processing devices 120 as the distributed processing has been described as an example. As long as the process is performed on the pair, a calculation process other than the calculation of the correlation function may be performed.
  • one management device 110 and one processing result collection device 130 are provided, but a plurality of management devices 110 and a plurality of processing result collection devices 130 may be used.
  • allocation of metrics to the processing device 120 and transmission of metric data are executed in a distributed manner by the plurality of management devices 110.
  • the collection of correlation functions from the processing device 120 is also executed in a distributed manner by the plurality of processing result collection devices 130.
  • DESCRIPTION OF SYMBOLS 100 Distributed data processing system 110 Management apparatus 111 Management part 112 Data storage part 113 Processing data 114 Processing apparatus control part 115 Operation state storage part 116 Operation state information 120 Processing apparatus 121 Processing part 122 Temporary storage part 130 Processing result collection apparatus 131 Processing result Collection unit 132 Processing result storage unit 133 Processing result 200 Information collection device 300 Correlation destruction detection device 400 Failure analysis device 500 Operation management system 600 Analysis target system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 複数種別のデータの各ペアに対する分散処理を効率的に実行する。 分散データ処理システム100は、N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う。分散データ処理システム100は、管理部111、及び、複数の処理部121を含む。管理部111は、N種の内の1番目からN-1番目の各々を、複数の処理部121のいずれかに割り当てる。複数の処理部121の各々は、管理部111により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して所定の演算処理を実行する。

Description

分散データ処理システム、及び、分散データ処理方法
 本発明は、分散データ処理システム、及び、分散データ処理方法に関し、特に、複数種別のデータの内の各ペアに対して処理を行う、分散データ処理システム、及び、分散データ処理方法に関する。
 システム性能の時系列情報を用いて、システムのモデル化を行い、生成されたモデルを用いてそのシステムの障害を検出する運用管理システムの一例が特許文献1に記載されている。
 特許文献1記載の運用管理システムは、システムの複数のメトリックの計測値をもとに、複数のメトリックの内の各ペアに対する相関関数を決定することにより、システムの相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、相関関係の破壊(相関破壊)を検出し、相関破壊をもとに障害の要因を判定する。このように、相関破壊をもとに障害要因を分析する技術は、不変関係分析と呼ばれる。
 不変関係分析では、複数のメトリックの内の全ペアについて相関関数が計算される。相関関数を計算するペアの数は、メトリックの数の2乗に比例する。このため、システムの規模(メトリックの数)が大きい場合は、相関関数を計算するペアの数が膨大となり、所定の時間内で相関モデルの生成を行うことは困難となる。
 上述のような大量のデータに対する計算を短時間に行う方法の1つとして分散処理がある。分散処理の代表的な技術として、例えば、非特許文献1に開示されているHadoopが知られている。Hadoopでは、分散ファイルシステムであるHDFS(Hadoop Distributed File System)により、処理対象のデータが複数のノードに分散配置される。そして、MapReduceにより、複数のノードにおいて処理が並列に実行される。
 なお、関連技術として、特許文献2には、Hadoopのような分散処理システムにおいて、ノード間の通信遅延をもとに、処理を実行するノードを決定する方法が開示されている。
特許第4872944号公報 特開2010-97489号公報
The Apache Software Foundation、"hadoop"、[online]、[平成24年9月27日検索]、インターネット〈URL:http://hadoop.apache.org/index.html〉
 Hadoopを用いて上述の不変関係分析を行う場合、例えば、複数のメトリックの内の各ペアがいずれかのノードに割り当てられ、各ノードは割り当てられたペアについて相関関数を計算する。この場合、各ノードは、ペアが割り当てられるたびに、割り当てられたペアに係るメトリックのデータを当該データが配置されたノードから取得する必要があり、ノード間のデータ転送が多発する。このように、Hadoopでは、複数種別のデータの各ペアに対する分散処理が効率的に実行できないという課題がある。
 本発明の目的は、上述の課題を解決し、複数種別のデータの各ペアに対する分散処理を効率的に実行できる分散データ処理システム、及び、分散データ処理方法を提供することである。
 本発明の一態様における分散データ処理システムは、N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムであって、前記N種の内の1番目からN-1番目の各々を、複数の処理手段のいずれかに割り当てる管理手段と、各々が、前記管理手段により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する前記複数の処理手段と、を備える。
 本発明の一態様における管理装置は、N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムにおける管理装置であって、前記N種の内の1番目からN-1番目の各々を、管理装置により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する複数の処理装置のいずれかに割り当てる管理手段を備える。
 本発明の一態様における処理装置は、N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムにおける処理装置であって、前記N種の内の1番目からN-1番目の各々を複数の処理装置のいずれかに割り当てる管理装置により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータと、i+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する処理手段を備える。
 本発明の一態様における分散データ処理方法は、N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理方法であって、管理手段において、前記N種の内の1番目からN-1番目の各々を、複数の処理手段のいずれかに割り当て、前記複数の処理手段の各々において、前記管理手段により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する。
 本発明の一態様におけるコンピュータが読み取り可能な第1の記録媒体は、N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムにおける管理装置のプログラムを格納する記録媒体であって、コンピュータに、前記N種の内の1番目からN-1番目の各々を、管理装置により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する複数の処理装置のいずれかに割り当てる処理を実行させるプログラムを格納する。
 本発明の一態様におけるコンピュータが読み取り可能な第2の記録媒体は、N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムにおける処理装置のプログラムを格納する記録媒体であって、コンピュータに、前記N種の内の1番目からN-1番目の各々を複数の処理装置のいずれかに割り当てる管理装置により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータと、i+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する、処理を実行させるプログラムを格納する。
 本発明の効果は、複数データの各ペアに対する分散処理を効率的に実行できることである。
本発明の第1の実施の形態の特徴的な構成を示すブロック図である。 本発明の第1の実施の形態における、運用管理システム500の構成を示すブロック図である。 本発明の第1の実施の形態における、管理部111の処理を示すフローチャートである。 本発明の第1の実施の形態における、処理部121の処理を示すフローチャートである。 本発明の第1の実施の形態における、処理データ113の例を示す図である。 本発明の第1の実施の形態における、一時記憶部122に記憶されるデータの例を示す図である。 本発明の第1の実施の形態における、処理結果133の例を示す図である。 本発明の第2の実施の形態における、運用管理システム500の構成を示すブロック図である。 本発明の第2の実施の形態における、処理装置制御部114の処理を示すフローチャートである。 本発明の第2の実施の形態における、稼動状態情報116の例を示す図である。
 ここでは、システムに対する不変関係分析を行う運用管理システム500において、分散データ処理システム100が相関モデルを生成する場合を例に、実施の形態を説明する。
 (第1の実施の形態)
 次に、本発明の第1の実施の形態について説明する。
 はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態における、運用管理システム500の構成を示すブロック図である。
 運用管理システム500は、分析対象システム600から収集した性能情報をもとに、分析対象システム600の相関モデルを生成し、生成した相関モデルを用いて、分析対象システム600の障害や異常の検出を行う。
 分析対象システム600は、WEBサーバ、アプリケーションサーバ(APサーバ)、データベースサーバ(DBサーバ)等のサービス処理を実行する被監視装置を1以上含む。被監視装置は、複数種目の性能値の実測データ(計測値)を一定間隔(所定の性能情報収集周期)毎に計測し、運用管理システム500へ送信する。性能値の種目として、例えば、CPU(Central Processing Unit)使用率、メモリ使用率、ディスクアクセス頻度、ネットワークの使用率等、コンピュータリソースの使用率や使用量が用いられる。
 ここで、被監視装置と性能値の種目の組をメトリック(性能種別、または、単に種別)とし、同一時刻に計測されたN種(Nは、2≦Nの自然数)のメトリックの値の組を性能情報とする。また、メトリックは、特許文献1における要素に相当する。
 運用管理システム500は、分散データ処理システム(相関モデル生成システム)100、情報収集装置200、相関破壊検出装置300、及び、障害分析装置400を含む。
 情報収集装置200は、所定の性能情報収集周期で、分析対象システム600の被監視装置から性能情報を収集し、分散データ処理システム100の管理装置110に送信する。
 分散データ処理システム100は、性能情報をもとに、分析対象システム600の相関モデルを生成する。相関モデルは、N種のメトリックの内の各対(ペア)に対する相関関数を含む。相関関数は、メトリックのペアの内の一方のメトリックの値の時系列から他方のメトリックの値の時系列を予測する関数であり、メトリックのペアの相関関係を示す。
 分散データ処理システム100は、管理装置110、複数の処理装置120(120_1、120_2、…)、及び、処理結果収集装置130を含む。
 管理装置110は、管理部111(または、マスター)、及び、データ記憶部112を含む。
 データ記憶部112は、情報収集装置200から受信した性能情報の時系列を処理データ113として記憶する。
 図5は、本発明の第1の実施の形態における、処理データ113の例を示す図である。図5の例では、性能情報は、N種のメトリック(m、m、…、m)の計測値(データ)を含む。
 管理部111は、処理装置120の処理部121からの要求に応じて、N種のメトリックの内の1番目からN-1番目の各々を、当該処理装置120に割り当てる。
 処理装置120は、処理部121(または、ワーカー)、及び、一時記憶部122を含む。
 処理部121は、管理装置110により割り当てられたメトリックと他のメトリックとのペアに対して相関関数の算出を行う。ここで、処理部121は、i番目(1≦i≦N-1)が割り当てられた場合、i番目のメトリック(m)とi+1からN番目のメトリック(m,i+1≦j≦N)の各々とのペアに対して相関関数の算出を行う。処理部121は、各メトリックのペアの計測値を管理装置110から取得し、特許文献1の運用管理装置と同様に、システム同定処理を行うことにより、相関関数の係数を決定する。また、処理部121は、管理装置110から取得したメトリックの計測値を一時記憶部122に保存する。
 一時記憶部122は、データ記憶部112から取得したメトリックのデータを、一時的に記憶(キャッシュ)する。
 図6は、本発明の第1の実施の形態における、一時記憶部122に記憶されるデータの例を示す図である。図6に示すように、一時記憶部122は、i番目のメトリック(m)のデータを記憶する一時記憶部122a(第1の一時記憶部)と、i+1からN番目のメトリック(m,i+1≦j≦N)のデータを記憶する一時記憶部122b(第2の一時記憶部)とに分割されていてもよい。また、一時記憶部122bは、i+1からN番目のメトリック(m,i+1≦j≦N)の内、所定数のメトリックのデータを記憶してもよい。この場合、一時記憶部122bは、例えば、FIFO(First-In First-Out)形式で、メトリックのデータを記憶してもよい。また、この場合、一時記憶部122bは、iが大きいメトリックができるだけ多く残るような形式等、FIFO以外の形式で、メトリックのデータを記憶してもよい。
 処理結果収集装置130は、処理結果収集部131、及び、処理結果記憶部132を含む。
 処理結果収集部131は、各処理装置120において算出された相関関数を取得し、処理結果133として、処理結果記憶部132に保存する。
 処理結果記憶部132は、処理結果133を記憶する。処理結果133は、分析対象システム600の相関モデルを示す。
 図7は、本発明の第1の実施の形態における、処理結果133の例を示す図である。図7において、f(i,j)は、入力メトリックmと出力メトリックmのペアに対する相関関数を示す。ここで、例えば、相関関数f(i,j)が、m=α×m+βの形式である場合、mとmのペアに対して、係数α、βが決定される。なお、メトリックのペアの内の一方のメトリックの値の時系列から他方のメトリックの値の時系列を予測できれば、相関関数として他の関数式を用いてもよい。
 相関破壊検出装置300は、特許文献1と同様に、新たに入力された性能情報を用いて、相関モデルに含まれる相関関係の相関破壊を検出する。
 障害分析装置400は、特許文献1と同様に、相関破壊の検出結果をもとに、障害要因を推定する。
 なお、管理装置110、処理装置120、処理結果収集装置130、情報収集装置200、相関破壊検出装置300、及び、障害分析装置400は、それぞれ、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、管理装置110、処理装置120、処理結果収集装置130、情報収集装置200、相関破壊検出装置300、及び、障害分析装置400は、それぞれ、コンピュータ上に構築される仮想的なコンピュータ(仮想マシン)でもよい。また、管理装置110、処理装置120、処理結果収集装置130、情報収集装置200、相関破壊検出装置300、及び、障害分析装置400の内のいくつかが、1つの装置を構成していてもよい。
 次に、本発明の第1の実施の形態の動作について説明する。
 図3は、本発明の第1の実施の形態における、管理部111の処理を示すフローチャートである。
 ここでは、情報収集装置200が分析対象システム600から性能情報を収集した結果、N種のメトリックに係る図5のような処理データ113が、管理装置110のデータ記憶部112に記憶されていると仮定する。
 はじめに、管理装置110の管理部111は、メトリック番号を1に初期化する(ステップS101)。
 管理部111は、各処理装置120の処理部121からのリクエストを待機する(ステップS102)。
 管理部111は、処理部121からのリクエストがメトリック番号であり(ステップS103/メトリック番号)、メトリック番号がN未満の場合、メトリック番号を処理部121に送信する(ステップS104)。
 管理部111は、メトリック番号に1を加算する(ステップS105)。
 管理部111は、処理部121からのリクエストがメトリックのデータであった場合(ステップS103/データ)、要求されたメトリック番号のメトリックのデータをデータ記憶部112から取得し、処理部121に送信する(ステップS106)。
 管理部111は、ステップS102~S106の処理を繰り返し実行する。
 図4は、本発明の第1の実施の形態における、処理部121の処理を示すフローチャートである。
 はじめに、各処理装置120の処理部121は、管理部111にメトリック番号iをリクエストし(ステップS201)、メトリック番号iを取得する。
 処理部121は、メトリックmのデータが、一時記憶部122bにあるかどうかを判定する(ステップS202)。
 一時記憶部122bにある場合(ステップS202/Y)、処理部121は、一時記憶部122bからメトリックmのデータを取得し、一時記憶部122aに保存する(ステップS203)。
 一時記憶部122bに無い場合(ステップS202/N)、処理部121は、管理部111に、メトリックmのデータをリクエストし(ステップS204)、メトリックmのデータを取得する。
 処理部121は、メトリックmのデータを一時記憶部122aに保存する(ステップS205)。
 次に、処理部121は、メトリック番号jをi+1に初期化する(ステップS206)。
 処理部121は、メトリックmのデータが、一時記憶部122bにあるかどうかを判定する(ステップS207)。
 一時記憶部122bに無い場合(ステップS207/N)、処理部121は、管理部111に、メトリックmのデータをリクエストし(ステップS208)、メトリックmのデータを取得する。
 処理部121は、メトリックmのデータを一時記憶部122bに保存する(ステップS209)。ここで、一時記憶部122bには、例えば、FIFO形式で、メトリックのデータが記憶される。
 処理部121は、メトリックmとmのペアに対して、相関関数f(i,j)の算出を行う(ステップS210)。ここで、相関関数f(i,j)の入出力が可換でない(f(i,j)とf(j,i)とが等しくない)場合、処理部121は、相関関数f(j,i)の算出も行う。
 処理部121は、算出した相関関数を、処理結果収集装置130の処理結果収集部131に送信する(ステップS211)。処理結果収集部131は、処理装置120から取得した相関関数を、処理結果記憶部132の処理結果133に設定する。
 処理部121は、メトリック番号jに1を加算し(ステップS212)、jがN以下であれば(ステップS213/Y)、ステップS207~212の処理を繰り返す(ステップS213)。
 さらに、処理部121は、ステップS201~S213の処理を繰り返す。
 例えば、管理部111は、処理部121からのリクエストに応じて、処理部121に、メトリック番号を1からN-1まで、順番に割り当てる。
 処理部121_1は、管理部111から、メトリック番号i=1を取得する。処理部121_1は、管理部111から、メトリックmのデータを取得し、一時記憶部122aに保存する。次に、処理部121_1は、管理部111から、メトリックmのデータを取得し、一時記憶部122bに保存する。処理部121_1は、メトリックのペア(m、m)に対して、相関関数f(1,2)、相関関数f(2,1)を算出する。さらに、処理部121_1は、管理部111から、メトリックmのデータを取得し、一時記憶部122bに保存する。処理部121_1は、メトリックのペア(m、m)に対して、相関関数f(1,3)、相関関数f(3,1)を算出する。このようにして、処理部121_1は、メトリックのペア(m、m)、(m、m)、(m、m)、…、(m、m)に対して、相関関数f(1,2)、f(1,3)、f(1,4)、…、f(1,N)、及び、相関関数f(2,1)、f(3,1)、f(4,1)、…、f(N,1)(図7の処理結果133における相関関数群134_1、及び、相関関数群134_2)を算出する。
 また、処理部121_2は、管理部111から、メトリック番号i=2を取得する。処理部121_2は、管理部111から、メトリックmのデータを取得し、一時記憶部122aに保存する。次に、処理部121_2は、管理部111から、メトリックmのデータを取得し、一時記憶部122bに保存する。処理部121_2は、メトリックのペア(m、m)に対して、相関関数f(2,3)、相関関数f(3,2)を算出する。このようにして、処理部121_2は、メトリックのペア(m、m)、(m、m)、…、(m、m)に対して、相関関数f(2,3)、f(2,4)、…、f(2,N)、及び、相関関数f(3,2)、f(4,2)、…、f(N,2)(図7の処理結果133における相関関数群135_1、及び、相関関数群135_2)を算出する。
 次に、処理部121_1は、管理部111から、メトリック番号k(kは、前回取得したi<k≦N-1)を取得する。処理部121_1は、メトリックのペア(m、mk+1)、(m、mk+2)、…、(m、m)に対して、相関関数f(k,k+1)、f(k,k+2)、…、f(k,N)、及び、相関関数f(k+1,k)、f(k+2,k)、…、f(N,k)を算出する。ここで、処理部121_1は、一時記憶部122bにメトリックmのデータがある場合は、一時記憶部122bから、メトリックmのデータを取得し、一時記憶部122aに保存して、利用する。また、処理部121_1は、一時記憶部122bにメトリックmk+1~mのデータがある場合は、それらのデータを利用する。
 このようにして、複数の処理部121により、N種のメトリックの内の全ペアに対して相関関数が算出され、例えば、図7に示すような処理結果133(相関モデル)が、処理結果記憶部132に保存される。
 以降、処理結果記憶部132が記憶する相関モデルを用いて、特許文献1と同様に、相関破壊検出装置300による相関破壊の検出、及び、障害分析装置400による障害要因の推定が行われる。
 以上により、本発明の第1の実施の形態の動作が完了する。
 次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
 分散データ処理システム100は、N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う。分散データ処理システム100は、管理部111、及び、複数の処理部121を含む。管理部111は、N種の内の1番目からN-1番目の各々を、複数の処理部121のいずれかに割り当てる。複数の処理部121の各々は、管理部111により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して所定の演算処理を実行する。
 次に、本発明の第1の実施の形態の効果を説明する。
 本発明の第1の実施の形態によれば、複数種別のデータの各ペアに対する分散処理を効率的に実行できる。その理由は、管理部111が、N種の内の1番目からN-1番目の各々を、複数の処理部121のいずれかに割り当て、複数の処理部121の各々が、管理部111により割り当てられたi番目のデータとi+1からN番目の各々のデータとのペアに対して所定の演算処理を実行するためである。
 例えば、各処理部121が、ペアが割り当てられるたびに、当該ペアに係るデータを取得する場合には、データ転送の回数は、(2×ペアの数)=(2N(N-1)/2)回となる。これに対して、本発明の第1の実施の形態では、データ転送の回数は、((N-1)+ペアの数))=((N+2)(N-1)/2)回となり、データ転送の回数が低減される。
 また、管理部111が、N種の内の1番目からN-1番目の各々を順番に割り当て、処理部121が、i+1からN番目のデータを一時記憶部122bに保存することにより、処理部121において次に割り当てられるk(kは、前回取得したi<k≦N-1)番目のデータとk+1からN番目のデータが、一時記憶部122bに記憶されるため、データ転送の回数がさらに低減される。
 また、上述のように、データ転送の回数が低減されることにより、管理装置110、各処理装置120、及び、処理結果収集装置130のI/O(Input/Output)に係る負荷が低減される。
 (第2の実施の形態)
 次に、本発明の第2の実施の形態について説明する。
 運用管理システム500において、分析対象システム600の相関モデルが、時間とともに変動するケースが存在する。この場合、相関モデルが変わる前に、相関モデルの生成、及び、相関モデルを用いた分析を行う必要があるため、相関モデルの生成は、短時間で終了させる必要がある。本発明の第2の実施の形態においては、N種のメトリックの内の全ペアに対する相関関数の算出を処理完了時間内に完了できるように、処理部121が動的に追加される。
 はじめに、本発明の第2の実施の形態の構成について説明する。図8は、本発明の第2の実施の形態における、運用管理システム500の構成を示すブロック図である。
 図8を参照すると、分散データ処理システム100は、稼動中の処理装置120(120_1、120_2、…)、及び、停止中の処理装置120(120_4、120_5、…)を含む。ここで、稼動中の処理装置120は、ステップS201~S213(図4)の処理を行うことにより、相関関数を算出する。また、管理装置110は、さらに、処理装置制御部114(または、制御部)、及び、稼動状態記憶部115を含む。
 稼動状態記憶部115は、処理装置120の稼動状態を示す稼動状態情報116を記憶する。
 図10は、本発明の第2の実施の形態における、稼動状態情報116の例を示す図である。図10の例では、稼動状態情報116は、処理装置120の識別子、及び、当該処理装置120の稼動状態(稼動中、または、停止中)を含む。
 処理装置制御部114は、稼動中の処理装置120による、N種のメトリックの内の全ペアに対する相関関数の算出に必要な予測処理時間を算出し、予測処理時間をもとに、停止中の処理装置120を稼動させる(処理装置120を追加する)。
 次に、本発明の第2の実施の形態の動作について説明する。
 図9は、本発明の第2の実施の形態における、処理装置制御部114の処理を示すフローチャートである。
 ここでは、処理装置120_1~3が稼動中、処理装置120_4~6が停止中で、図10のような稼動状態情報116が、稼動状態記憶部115に設定されていると仮定する。また、稼動中の処理装置120_1~3により、相関関数の算出が行われていると仮定する。
 管理装置110の処理装置制御部114は、処理部121からの最初のメトリック番号のリクエスト(処理部121による相関関数の算出開始)から所定の経過時間後に、N種のメトリックの内の全ペアに対する予測処理時間を算出する(ステップS301)。ここで、処理装置制御部114は、例えば、経過時間と、処理結果133において相関関数が算出済みのペアの数とをもとに、全ペアに対する予測処理時間を算出する。
 算出した予測処理時間が処理完了時間を超える場合(ステップS302/Y)、処理装置制御部114は、稼動状態情報116を参照し、処理完了時間以内に全ペアに対する相関関数を算出するために必要な処理装置120の数を算出する(ステップS303)。ここで、処理完了時間は、相関モデルが変化する時間等をもとに、予め、管理者等により設定されているものと仮定する。処理装置制御部114は、上述の経過時間、相関関数を算出済みのペアの数、及び、稼動状態情報116から取得した稼動中の処理装置120の数をもとに、処理完了時間以内で全ペアに対する相関関数を算出するために必要な処理装置120の数を算出する。
 処理装置制御部114は、稼動中の処理装置120の数が算出した数になるように、停止中の処理装置120を稼動させる(ステップS304)。処理装置制御部114は、稼動状態情報116における、稼動させた処理装置120に係る稼動状態を更新する。
 そして、これまで稼動中であった処理装置120に加えて、新たに稼動した処理装置120がステップS201~S213の処理を行うことにより、相関関数を算出する。
 例えば、所定の処理完了時間がTであり、経過時間1/2×Tにおいて、全ペアの1/3の相関関数が算出済みである場合、処理装置制御部114は、予測処理時間を3/2×Tと算出する。処理装置制御部114は、所定の処理完了時間の残りの1/2×Tで、全ペアの2/3の相関関数の算出が必要であることから、必要な処理装置120の数を現在の2倍である6と算出する。処理装置制御部114は、停止中の処理装置120_4~6を稼動させる。そして、処理装置120_1~3に加えて、処理装置120_4~6が相関関数を算出する。
 なお、処理装置制御部114は、ステップS303において、算出した予測処理時間を管理者等に提示し、管理者等の指示に応じて、停止中の処理装置120を稼動させてもよい。
 また、処理装置制御部114は、各処理装置120の負荷状況をもとに、必要な処理装置120の数を算出し、停止中の処理装置120を稼動させてもよい。
 また、処理装置120が仮想マシンである場合、処理装置制御部114は、コンピュータ上に新たな仮想マシンを配備することにより、処理装置120を追加してもよい。
 次に、本発明の第2の実施の形態の効果を説明する。
 本発明の第2の実施の形態によれば、N種のメトリックの内の全ペアに対する相関関数の算出を処理完了時間内に完了できる。その理由は、処理装置制御部114が、予測処理時間が処理完了時間より大きい場合に、処理完了時間以内で全ペアに対する相関関数を算出するために必要な処理装置120の数を算出し、処理装置120を追加することにより、相関関数の算出処理が加速されるためである。
 また、本発明の第2の実施の形態によれば、相関関数の算出処理の加速を、容易に行うことができる。その理由は、管理装置110や各処理装置120の処理は、処理装置120の数には依存せず、処理装置120の追加を容易に行うことができるためである。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 例えば、本発明の実施の形態では、分散処理として、複数の処理装置120により複数種別のデータの各ペアに対して相関関数が算出される場合を例に説明したが、複数種別のデータの各ペアに対する処理であれば、相関関数の算出以外の他の演算処理が行われてもよい。
 また、本発明の実施の形態では、管理装置110、及び、処理結果収集装置130をそれぞれ1つとしているが、複数の管理装置110、及び、複数の処理結果収集装置130が用いられてもよい。この場合、処理装置120へのメトリックの割り当て、メトリックのデータの送信は、複数の管理装置110で分散して実行される。また、処理装置120からの相関関数の収集も、複数の処理結果収集装置130で分散して実行される。これにより、処理装置120の数が多く、管理装置110、各処理装置120、処理結果収集装置130間の通信帯域や、I/Oの帯域が、上限に達する場合でも、分散処理を効率的に実行できる。
 この出願は、2012年11月1日に出願された日本出願特願2012-241993を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 100  分散データ処理システム
 110  管理装置
 111  管理部
 112  データ記憶部
 113  処理データ
 114  処理装置制御部
 115  稼動状態記憶部
 116  稼動状態情報
 120  処理装置
 121  処理部
 122  一時記憶部
 130  処理結果収集装置
 131  処理結果収集部
 132  処理結果記憶部
 133  処理結果
 200  情報収集装置
 300  相関破壊検出装置
 400  障害分析装置
 500  運用管理システム
 600  分析対象システム

Claims (20)

  1.  N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムであって、
     前記N種の内の1番目からN-1番目の各々を、複数の処理手段のいずれかに割り当てる管理手段と、
     各々が、前記管理手段により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する前記複数の処理手段と、
    を備える分散データ処理システム。
  2.  さらに、前記N種のデータを記憶するデータ記憶手段を備え、
     前記複数の処理手段の各々は、前記データ記憶手段から前記i番目のデータと前記i+1からN番目のデータとを取得し、前記所定の演算処理を実行する、
    請求項1に記載の分散データ処理システム。
  3.  さらに、前記複数の処理手段の各々に、第1の一時記憶手段を備え、
     前記複数の処理手段の各々は、前記データ記憶手段から取得した前記i番目のデータを前記第1の一時記憶手段に記憶させ、前記第1の一時記憶手段に記憶されたデータを用いて、前記i番目のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する、
    請求項1または2に記載の分散データ処理システム。
  4.  さらに、前記複数の処理手段の各々に、第2の一時記憶手段を備え、
     前記複数の処理手段の各々は、前記データ記憶手段から取得した前記i+1からN番目のデータの少なくとも一部を前記第2の一時記憶手段に記憶させ、前記管理手段により新たにk番目(kは、1以上かつN-1以下の自然数)が割り当てられた場合に、前記第2の一時記憶手段に記憶されたデータを用いて、前記k番目のデータとk+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する、
    請求項1乃至3のいずれかに記載の分散データ処理システム。
  5.  前記管理手段は、前記N種の内の1番目からN-1番目の各々を順番に、前記複数の処理手段のいずれかに割り当てる、
    請求項1乃至4のいずれかに記載の分散データ処理システム。
  6.  さらに、前記複数の処理手段による前記所定の演算処理が実行されているときに、新たな前記処理手段を追加する制御手段を備える、
    請求項1乃至5のいずれかに記載の分散データ処理システム。
  7.  前記制御手段は、前記複数の処理手段による前記N種のデータの内の全ペアに対する前記所定の演算処理の予測処理時間が所定の処理完了時間を越える場合、前記全ペアに対する前記所定の演算処理が前記所定の処理完了時間以内で完了するために必要な前記処理手段の数を算出し、前記処理手段の数が当該算出した数になるように、前記処理手段を追加する、
    請求項6に記載の分散データ処理システム。
  8.  前記N種のデータは、システムにおけるN種のメトリックの計測値であり、
     前記複数の処理手段の各々は、前記管理手段により割り当てられたi番目のメトリックの計測値とi+1からN番目の各々のメトリックの計測値とのペアに対して相関関数を算出する、
    請求項1乃至7のいずれかに記載の分散データ処理システム。
  9.  N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムにおける管理装置であって、
     前記N種の内の1番目からN-1番目の各々を、管理装置により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する複数の処理装置のいずれかに割り当てる管理手段
    を備えた管理装置。
  10.  N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムにおける処理装置であって、
     前記N種の内の1番目からN-1番目の各々を複数の処理装置のいずれかに割り当てる管理装置により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータと、i+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する処理手段
    を備えた処理装置。
  11.  N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理方法であって、
     管理手段において、前記N種の内の1番目からN-1番目の各々を、複数の処理手段のいずれかに割り当て、
     前記複数の処理手段の各々において、前記管理手段により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する、
    分散データ処理方法。
  12.  前記複数の処理手段の各々において、前記N種のデータを記憶するデータ記憶手段から、前記i番目のデータと前記i+1からN番目のデータとを取得し、前記所定の演算処理を実行する、
    請求項11に記載の分散データ処理方法。
  13.  前記複数の処理手段の各々において、前記データ記憶手段から取得した前記i番目のデータを、前記複数の処理手段の各々に対応する第1の一時記憶手段に記憶させ、前記第1の一時記憶手段に記憶されたデータを用いて、前記i番目のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する、
    請求項11または12に記載の分散データ処理方法。
  14.  前記複数の処理手段の各々において、前記データ記憶手段から取得した前記i+1からN番目のデータの少なくとも一部を、前記複数の処理手段の各々に対応する第2の一時記憶手段に記憶させ、前記管理手段により新たにk番目(kは、1以上かつN-1以下の自然数)が割り当てられた場合に、前記第2の一時記憶手段に記憶されたデータを用いて、前記k番目のデータとk+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する、
    請求項11乃至13のいずれかに記載の分散データ処理方法。
  15.  前記管理手段において、前記N種の内の1番目からN-1番目の各々を順番に、前記複数の処理手段のいずれかに割り当てる、
    請求項11乃至14のいずれかに記載の分散データ処理方法。
  16.  さらに、制御手段において、前記複数の処理手段による前記所定の演算処理が実行されているときに、新たな前記処理手段を追加する、
    請求項11乃至15のいずれかに記載の分散データ処理方法。
  17.  前記制御手段において、前記複数の処理手段による前記N種のデータの内の全ペアに対する前記所定の演算処理の予測処理時間が所定の処理完了時間を越える場合、前記全ペアに対する前記所定の演算処理が前記所定の処理完了時間以内で完了するために必要な前記処理手段の数を算出し、前記処理手段の数が当該算出した数になるように、前記処理手段を追加する、
    請求項16に記載の分散データ処理方法。
  18.  前記N種のデータは、システムにおけるN種のメトリックの計測値であり、
     前記複数の処理手段の各々において、前記管理手段により割り当てられたi番目のメトリックの計測値とi+1からN番目の各々のメトリックの計測値とのペアに対して相関関数を算出する、
    請求項11乃至17のいずれかに記載の分散データ処理方法。
  19.  N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムにおける管理装置のプログラムを格納する記録媒体であって、
     コンピュータに、
     前記N種の内の1番目からN-1番目の各々を、管理装置により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータとi+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する複数の処理装置のいずれかに割り当てる、
    処理を実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  20.  N種(Nは、2以上の自然数)のデータの内の各ペアに対して所定の演算処理を行う分散データ処理システムにおける処理装置のプログラムを格納する記録媒体であって、
     コンピュータに、
     前記N種の内の1番目からN-1番目の各々を複数の処理装置のいずれかに割り当てる管理装置により割り当てられたi番目(iは、1以上かつN-1以下の自然数)のデータと、i+1からN番目の各々のデータとのペアに対して前記所定の演算処理を実行する、
    処理を実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。
PCT/JP2013/006437 2012-11-01 2013-10-30 分散データ処理システム、及び、分散データ処理方法 WO2014068980A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP13851403.9A EP2916222A4 (en) 2012-11-01 2013-10-30 DISTRIBUTED DATA PROCESSING SYSTEM AND DISTRIBUTED DATA PROCESSING METHOD
US14/439,082 US10296493B2 (en) 2012-11-01 2013-10-30 Distributed data processing system and distributed data processing method
CN201380057593.9A CN104769551B (zh) 2012-11-01 2013-10-30 分布式数据处理系统和分布式数据处理方法
JP2014544322A JP6070717B2 (ja) 2012-11-01 2013-10-30 分散データ処理システム、及び、分散データ処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012241993 2012-11-01
JP2012-241993 2012-11-01

Publications (1)

Publication Number Publication Date
WO2014068980A1 true WO2014068980A1 (ja) 2014-05-08

Family

ID=50626928

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/006437 WO2014068980A1 (ja) 2012-11-01 2013-10-30 分散データ処理システム、及び、分散データ処理方法

Country Status (5)

Country Link
US (1) US10296493B2 (ja)
EP (1) EP2916222A4 (ja)
JP (1) JP6070717B2 (ja)
CN (1) CN104769551B (ja)
WO (1) WO2014068980A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190253357A1 (en) * 2018-10-15 2019-08-15 Intel Corporation Load balancing based on packet processing loads

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325806A (ja) * 1994-06-01 1995-12-12 Nec Corp マルチプロセッサシステムのプロセス割当方法
JP2006146668A (ja) * 2004-11-22 2006-06-08 Ntt Data Corp 運用管理支援装置及び運用管理支援プログラム
JP2009199533A (ja) * 2008-02-25 2009-09-03 Nec Corp 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP2010097489A (ja) 2008-10-17 2010-04-30 Nec Corp 分散データ処理システム、分散データ処理方法および分散データ処理用プログラム
WO2011070910A1 (ja) * 2009-12-07 2011-06-16 日本電気株式会社 データ配置・計算システム、データ配置・計算方法、マスタ装置、及びデータ配置方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490323B2 (en) * 2004-02-13 2009-02-10 International Business Machines Corporation Method and system for monitoring distributed applications on-demand
JP5408442B2 (ja) * 2010-01-21 2014-02-05 株式会社日立製作所 並列分散処理方法、及び、計算機システム
CN102713862B (zh) * 2010-02-15 2015-12-02 日本电气株式会社 故障原因提取装置、故障原因提取方法和程序记录介质
JP5532150B2 (ja) * 2011-01-24 2014-06-25 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
WO2012128388A1 (ja) * 2011-03-23 2012-09-27 日本電気株式会社 運用管理システム、運用管理方法、及びプログラム
JP5843459B2 (ja) * 2011-03-30 2016-01-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理システム、情報処理装置、スケーリング方法、プログラムおよび記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325806A (ja) * 1994-06-01 1995-12-12 Nec Corp マルチプロセッサシステムのプロセス割当方法
JP2006146668A (ja) * 2004-11-22 2006-06-08 Ntt Data Corp 運用管理支援装置及び運用管理支援プログラム
JP2009199533A (ja) * 2008-02-25 2009-09-03 Nec Corp 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP2010097489A (ja) 2008-10-17 2010-04-30 Nec Corp 分散データ処理システム、分散データ処理方法および分散データ処理用プログラム
WO2011070910A1 (ja) * 2009-12-07 2011-06-16 日本電気株式会社 データ配置・計算システム、データ配置・計算方法、マスタ装置、及びデータ配置方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HADOOP, 27 September 2012 (2012-09-27), Retrieved from the Internet <URL:http://hadoop.apache.org/index.html>
See also references of EP2916222A4

Also Published As

Publication number Publication date
CN104769551A (zh) 2015-07-08
JPWO2014068980A1 (ja) 2016-09-08
JP6070717B2 (ja) 2017-02-01
EP2916222A4 (en) 2016-04-13
EP2916222A1 (en) 2015-09-09
US20150293936A1 (en) 2015-10-15
US10296493B2 (en) 2019-05-21
CN104769551B (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
CN108009016B (zh) 一种资源负载均衡控制方法及集群调度器
Jain et al. Working vacations queueing model with multiple types of server breakdowns
JP5532150B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US7467291B1 (en) System and method for calibrating headroom margin
CN112003763B (zh) 网络链路的监测方法、监测装置、监测设备及存储介质
JP5768796B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
Bashar Autonomic scaling of cloud computing resources using BN-based prediction models
JP5954430B2 (ja) 運用管理装置、及び、運用管理方法
EP3465966B1 (en) A node of a network and a method of operating the same for resource distribution
WO2016178316A1 (ja) 計算機調達予測装置、計算機調達予測方法、及び、プログラム
Wang et al. Design and implementation of an analytical framework for interference aware job scheduling on apache spark platform
Gong et al. Finding constant from change: Revisiting network performance aware optimizations on iaas clouds
CN111431996B (zh) 用于资源配置的方法、装置、设备和介质
JP6176390B2 (ja) 情報処理装置、解析方法、及び、プログラム記録媒体
Shen et al. Performance modeling of big data applications in the cloud centers
CN113158435B (zh) 基于集成学习的复杂系统仿真运行时间预测方法与设备
US20090217282A1 (en) Predicting cpu availability for short to medium time frames on time shared systems
Ever Performability analysis of cloud computing centers with large numbers of servers
JP6070717B2 (ja) 分散データ処理システム、及び、分散データ処理方法
JP2006092053A (ja) システム使用率管理装置及びそれに用いるシステム使用率管理方法並びにそのプログラム
Rajput et al. Study of performance evolution of three tier architecture based cloud computing system
Tutov Models and methods of resources allocation of infocommunication system in cloud data centers
JP2018032245A (ja) 計算機システム及びリソース制御方法
JP5747389B2 (ja) 計算機資源割当装置及び方法及びプログラム
CN115480908A (zh) 一种内存池化方法以及相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13851403

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2013851403

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2014544322

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14439082

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE