WO2019244733A1 - オペレーション装置、および、オペレーション方法 - Google Patents

オペレーション装置、および、オペレーション方法 Download PDF

Info

Publication number
WO2019244733A1
WO2019244733A1 PCT/JP2019/023235 JP2019023235W WO2019244733A1 WO 2019244733 A1 WO2019244733 A1 WO 2019244733A1 JP 2019023235 W JP2019023235 W JP 2019023235W WO 2019244733 A1 WO2019244733 A1 WO 2019244733A1
Authority
WO
WIPO (PCT)
Prior art keywords
message
component
storage unit
action
rule
Prior art date
Application number
PCT/JP2019/023235
Other languages
English (en)
French (fr)
Inventor
直幸 丹治
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/253,241 priority Critical patent/US11349730B2/en
Publication of WO2019244733A1 publication Critical patent/WO2019244733A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5041Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the time relationship between creation and deployment of a service
    • H04L41/5054Automatic deployment of services triggered by the service manager, e.g. service implementation by automatic configuration of network components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/0816Configuration setting characterised by the conditions triggering a change of settings the condition being an adaptation, e.g. in response to network events
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0853Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Definitions

  • the present invention relates to an operation device and an operation method.
  • a configuration management tool such as Ansible is known for a process in which a target process is software installation or configuration such as setting.
  • network management software such as Zabbix is known for a process whose target process is to monitor the performance of hardware or monitor the alive state of the process.
  • continuous integration tools such as Jenkins and StackStorm are known for processes whose target processes are verification (continuous development) in software development and failure response.
  • Japanese Patent Application Laid-Open No. H11-163873 discloses a process in which a target process is a service order such as service construction or setting input.
  • conditional branching based on the knowledge and judgment of maintenance personnel is very complicated. For example, a conditional branch of a trial-and-error type operation process such as fault isolation is applicable. For this reason, even if an operation process has clear judgment criteria and procedures, the workflow defined for expressing the operation process is large-scale and complicated. For this reason, there is a problem that conventional operation automation involves a large development cost.
  • an object of the present invention is to reduce the development cost of operation automation in view of the above circumstances.
  • the invention according to claim 1 is an operation device that executes an operation related to a service on a network, wherein a plurality of types of operation components are provided, in which operation processes executed as the operations are made into components.
  • a message storage unit for storing a message exchanged between the operation components
  • a firing rule storage unit for storing a rule applied to each of the operation components
  • an action storage for storing an action indicating an operation content of each of the operation components.
  • a rule execution unit that executes for each operation component;
  • An action execution unit that executes for each operation component, and a transmission message processing unit that executes a process of creating a message addressed to another operation component based on an execution result of the executed action for each operation component; It is characterized by having.
  • an operation method in an operation device for executing an operation related to a service on a network wherein the operation device includes a plurality of types of operation processes executed as the operation.
  • Execute the action selection process for each operation component Performing the selected action for each of the operation components, and generating a message addressed to the other operation component based on the execution result of the executed action. And (c) performing the following.
  • the entire workflow can be established as a result of each of the operation components autonomously operating as an operation process. Need not be defined. Therefore, the development cost of operation automation can be reduced.
  • the invention according to claim 2 is the operation device according to claim 1, wherein the operation is an operation for realizing a failure recovery in a network provided with the service, and the operation component is An information collection component that collects information from a network configuration that provides a service, an information analysis component that analyzes the collected information, an information processing component that processes the collected information, and a test for confirming a failure in the network A test component and a configuration change component for changing the network configuration are included.
  • the invention according to claim 5 is the operation method according to claim 4, wherein the operation is an operation for realizing failure recovery in a network provided with the service, and the operation component is An information collection component that collects information from a network configuration that provides a service, an information analysis component that analyzes the collected information, an information processing component that processes the collected information, and a test for confirming a failure in the network A test component and a configuration change component for changing the network configuration are included.
  • the operation device according to the first or second aspect, wherein a message that a maintenance person permits the operation of each of the operation components is transmitted to each of the operation components.
  • a maintenance user UI user interface
  • the operation method according to the fourth or fifth aspect wherein a message that a maintenance person permits the operation of each of the operation components is transmitted to each of the operation components.
  • a maintenance UI to be performed is included as the operation component.
  • the development cost of operation automation can be reduced.
  • FIG. 2 is a functional configuration diagram of an operation device of the present embodiment. It is a flowchart of the message processing which the operation device of this embodiment performs. It is a figure which shows the example of the NW structure which provides the service in a specific example, and the example of the architecture of an operation component group. It is an example of the data structure of the message in a specific example. It is a figure showing the example of the data structure of the firing rule storage part in a specific example. It is a figure showing the example of the data structure of the action storage part in a specific example. (A) is an explanatory diagram of an operation example of the operation component group in the steady state of the specific example, and (b) is an explanatory diagram of the relevance of the exchanged message group.
  • (A) is an explanatory view of an operation example (part 1) of the operation component group at the time of occurrence of the alarm in the specific example, and (b) is an explanatory view of the relevance of the exchanged message group.
  • (A) is an explanatory view of an operation example (part 2) of the operation component group when an alarm occurs in the specific example, and (b) is an explanatory view of the relevance of the exchanged message group.
  • operation processes executed as service maintenance operations are classified into functional units, and the operation processes are made into components.
  • the operation process components classified by function are called “operation components”.
  • a closed workflow (workflow component) is defined for each operation component, and the operation component is autonomized by operating the operation component according to an individual rule.
  • Each of the operation components is loosely coupled via a predetermined IF (interface) so that messages can be exchanged between the operation components.
  • the present embodiment proposes an autonomous control loop method that establishes the entire workflow as a result of each operation component operating autonomously. According to this method, it is not necessary to define the entire large-scale and complicated workflow itself, and thus the development cost of operation automation can be reduced.
  • the operation device 1 of the present embodiment includes hardware such as an input / output unit 10, a processing unit 20, and a storage unit 30.
  • a CPU Central Processing Unit
  • a CPU which is a specific example of the processing unit 20
  • executes a program read into a memory which is a specific example of the storage unit 30, to realize the function of the operation device 1 according to the present embodiment.
  • the input / output unit 10 includes a message receiving unit 11 and a message transmitting unit 12. Further, the processing unit 20 includes a received message processing unit 21, a rule execution unit 22, an action execution unit 23, and a transmission message processing unit 24.
  • the storage unit 30 includes a message storage unit 31, a firing rule storage unit 32, an action storage unit 33, and a common data storage unit 34.
  • the message receiving unit 11 is an interface that receives a message input from the input device 2.
  • the input device 2 is, for example, a management console operated by a maintenance person or the operation device 1 itself (for example, receives a message exchanged between operation components of the operation device 1), but is not limited thereto.
  • a message is an information medium for exchanging information between operation components.
  • the message transmitting unit 12 outputs the processing result of the processing unit 20.
  • the processing result of the processing unit 20 is output, for example, as a file f, but is not limited thereto, and may be, for example, a telegram.
  • the processing result of the processing unit 20 is, for example, a message created by an operation component included in the operation apparatus 1, that is, a message created by the transmission message processing unit 24, but is not limited thereto.
  • the output result of a function unit (not shown) of the unit 20 may be used.
  • the received message processing unit 21 stores the message received by the message receiving unit 11 in the message storage unit 31.
  • the rule execution unit 22 refers to the message storage unit 31 and the firing rule storage unit 32 and can execute a message stored in the message storage unit 31 among the rules stored in the firing rule storage unit 32.
  • Execute (ignition) rules ignition rules.
  • a rule defines an autonomous operation of an operation component. Rules are prepared for each operation component.
  • the rule execution unit 22 refers to the action storage unit 33 and selects an action corresponding to the executed rule (an action required by the rule).
  • the action indicates the operation content of the operation component, and corresponds to each function when the operation process is classified into functional units. An action is prepared for each operation component. Further, the rule execution unit 22 outputs an execution instruction of the selected action to the action execution unit 23.
  • the action execution unit 23 refers to the action stored in the action storage unit 33 and executes the action selected by the rule execution unit 22. Further, the action execution unit 23 outputs a message transmission instruction according to the execution result of the action to the transmission message processing unit 24. Further, the action execution unit 23 stores the execution result of the action and status information indicating the status of each operation component accompanying the action execution in the common data storage unit 34.
  • the transmission message processing unit 24 refers to the message storage unit 31 and the common data storage unit 34, creates a message based on the execution result of the action by the action execution unit 23, and outputs the message to the message transmission unit 12.
  • the message to be created includes a message responding to the message stored in the message storage unit 31 (the message received by the message receiving unit 11).
  • the processing executed by the rule execution unit 22, the action execution unit 23, and the transmission message processing unit 24 is repeated for each operation component.
  • the message created by the transmission message processing unit 24 is a message created by each of a plurality of types of operation components, but a message created by a certain operation component is transmitted by broadcast to the remaining operation components.
  • the message storage unit 31 stores the message received by the message receiving unit 11 via the received message processing unit 21.
  • the firing rule storage unit 32 stores rules applied to operation components.
  • the action storage unit 33 stores an action indicating the operation content of the operation component.
  • the common data storage unit 34 stores data usable by each operation component as common data.
  • the common data is, for example, an execution result of the action by the action execution unit 23 or status information indicating each status of the operation component accompanying the action execution, but is not limited thereto.
  • processing executed by the operation device 1 of the present embodiment starts according to rules prepared for each operation component, that is, rules stored in the firing rule storage unit 32. For example, the processing starts after a predetermined time elapses or a message is received. Or start if you do.
  • the operation device 1 executes a loop process of steps S1a to S1b for each of a plurality of types of operation components. Hereinafter, the description will be continued as the processing for each operation component.
  • the operation device 1 refers to the message storage unit 31 and the firing rule storage unit 32 by the rule execution unit 22 and determines whether or not a firing rule exists (step S2). If the firing rule does not exist (No in step S2), the processing in FIG. 2 ends for the target operation component, and the processing in FIG. 2 starts for another operation component.
  • step S2 If the firing rule exists (Yes in step S2), the operation device 1 refers to the action storage unit 33 by the rule execution unit 22 and selects an action corresponding to the firing rule (step S3).
  • the operation device 1 causes the action execution unit 23 to execute the action selected by the rule execution unit 22 (Step S4).
  • the operation device 1 refers to the message storage unit 31 and the common data storage unit 34 by the transmission message processing unit 24, creates a message based on the execution result of the action, and outputs the message to the message transmission unit 12 (step S5). ).
  • the entire workflow can be established as a result of each of the operation components autonomously operating the operation process, it is not necessary to define the entire large-scale and complicated workflow itself. . Therefore, the development cost of operation automation can be reduced.
  • workflow components defined to represent each of the operation components are not so large and not so complicated, so that a large development cost is not required for operation automation.
  • the design of the entire workflow expressing the operation process to be automated is performed by the conventional method, but the design of the workflow component expressing the operation component of the present embodiment can be performed in the same manner as the conventional method. . Therefore, the description of the operation component creation method itself is omitted.
  • the NW (network) configuration for providing the specific example service is as shown in the upper part of FIG.
  • the NW configuration in a specific example is a configuration in which a plurality of service user bases and service providing bases are connected via the NW.
  • NW device e4 application A (e5), application B (e6), and database e7 located at the service providing base, terminals e1, e2, and NW device e3 located at the service user base
  • service is provided to the users of the terminals e1 and e2.
  • an operation process executed as a failure recovery operation includes information collection p1 (information collection component: collector), information analysis p2 (information analysis component: analyzer), and information processing p3. (Information processing component: editor), test p4 (test component: tester), configuration change p5 (configuration change component: maintainer), and maintenance UI (user interface) p6 (administrator): .
  • information collection component: collector information collection component: collector
  • information analysis p2 information analysis component: analyzer
  • Information processing component: editor test p4 (test component: tester), configuration change p5 (configuration change component: maintainer), and maintenance UI (user interface) p6 (administrator): .
  • test p4 test component: tester
  • configuration change p5 configuration change component: maintainer
  • maintenance UI user interface
  • the information collection p1 is a functional unit that collects information for service maintenance from NW configurations (various network devices (reference numerals e1 to e7 in FIG. 3)).
  • the information collection p1 can execute reversible information processing such as adding a time stamp and calculating a difference value.
  • the information analysis p2 is a functional unit that analyzes information collected by the information collection p1 and generates new information by performing arithmetic processing on existing information (including information collected by the information collection p1).
  • the arithmetic processing includes, for example, classification (eg, abnormality determination, clustering) and prediction, but is not limited thereto, and may include, for example, state estimation.
  • the information processing p3 is a functional unit that processes information collected by the information collection p1 and executes irreversible information processing on existing information (including information collected by the information collection p1).
  • Irreversible information processing includes, for example, noise removal, correlation calculation, feature extraction, and keyword extraction, but is not limited thereto, and may include, for example, statistical processing.
  • the information processing p3 can execute a process of visualizing a processing result of irreversible information processing (eg, a graph display, a screen display).
  • the test p4 is a functional unit that performs a test for confirming a failure in the network. Tests include, but are not limited to, for example, ping, curl, traceroute, 1call. The test p4 can issue a test call for the test.
  • the configuration change p5 is a functional unit that issues a change operation for the NW configuration and changes the NW configuration.
  • the change operation includes, but is not limited to, for example, user accommodation change, resource addition, service re-creation.
  • the maintenance person UI (p6) is a functional unit that provides a UI by which the management console M operated by the maintenance person exchanges messages with other operation components (p1 to p5) via the message bus p7.
  • the maintenance person UI (p6) can transmit a message to the operation components (p1 to p5) that the maintenance person permits the operation of each operation component (p1 to p5).
  • the maintenance person UI (p6) can provide a means for intervening the maintenance person's judgment in the automated operation, and can support the quality assurance of the service.
  • Each of the operation components (p1 to p6) has the functions of the received message processing unit 21, the rule execution unit 22, the action execution unit 23, and the transmission message processing unit 24, which have already been described.
  • the operation component (p1 to p6) may be referred to as "common" (all-parts).
  • a message exchanged between the operation components (p1 to p6) includes a plurality of pairs of a key, a value, and metadata.
  • FIG. 4 shows an example of a set of key, value, and metadata handled in the specific example.
  • types of keys include, but not limited to, src, dst, src_type, dst_type, id, relation_msg, msg_type, expect_state, current_state, and response_code.
  • the contents of the value and metadata associated with each key are examples.
  • the metadata may not exist depending on the type of the key, and is shown as a blank in FIG.
  • the src indicates the source of the message, and the associated value stores the identifier of the operation component that is the source.
  • dst represents the transmission destination of the message, and the associated value stores the identifier of the operation component that is the transmission destination.
  • the src_type indicates the type of the message transmission source, and the associated value stores the type of the operation component that is the transmission source.
  • the dst_type indicates the type of the destination of the message, and the associated value stores the type of the operation component as the destination.
  • the types of operation components included in the message are collector, analyzer, editor, tester, maintainer, and administrator.
  • Id represents the target message, and the associated value stores the identifier of the target message.
  • Relation_msg represents a message related to the target message (message identified by id), and the associated value represents the identifier of the related message.
  • the related messages include, but are not limited to, parent_msg (parent message), sibling_msg (sibling message), and child_msg (child message).
  • $ Msg_type represents the message type of the target message, and the associated value stores the message type.
  • the message type includes, for example, request (request), info (notification), and reply (response), but is not limited thereto.
  • $ Expect_state is a key of the message whose msg_type is "request", and represents a result expected from processing the message.
  • the linked value stores a specific numerical value and character string of the expected result, and follows the format shown in the linked metadata.
  • the linked metadata supplementary information of the description content such as the unit and meaning of the numerical value is stored.
  • $ Current_state is a key of a message whose msg_type is info or reply, and represents a processing result when the message is processed.
  • the linked value stores a specific numerical value and character string of the expected result, and follows the format shown in the linked metadata.
  • the linked metadata supplementary information of the description content such as the unit and meaning of the numerical value is stored.
  • Response_code is a key of a message whose msg_type is “reply”, and indicates a relationship between messages such as reception of asynchronous processing.
  • the linked value stores a code number indicating a relationship between messages, a URI of a recipient, and the like.
  • the firing rule storage unit 32 in this specific example stores rules prepared for each operation component (p1 to p6).
  • FIG. 5 shows an example of a rule stored by the firing rule storage unit 32 in this specific example.
  • each rule has an “item number” indicating the identification number of the rule, an “operation component” indicating the type of the operation component operated by the rule, and a “operation component” indicating a trigger of the operation by the rule. "if" and “then” indicating the operation content of the operation component according to the rule.
  • the # 1 rule is a rule commonly used for each operation component (p1 to p6). According to the first rule, when each operation component (p1 to p6) receives a new message (for example, a message created by another operation component by the transmission message processing unit 24), the operation component stores the message in the message storage unit. I do.
  • the # 2 rule is a rule used for information collection p1.
  • the information collection p1 executes the periodic collection when a predetermined period has elapsed from the previous collection. Further, the information collection p1 transmits a collection completion message to other operation components after the success of the periodic collection.
  • the # 3 rule is a rule used for information collection p1.
  • the third rule for example, when the information collection p1 receives an information collection request from a maintenance person and can process the requested information by itself, the information collection p1 indicates that the request has been received and indicates a storage destination. Reply information to the sender (requester).
  • the information collection p ⁇ b> 1 collects the information to be requested for the requested period, and stores it in the common data storage unit 34. After the collection is completed, the information collection p1 returns related information (such as success or failure of processing) to the transmission source.
  • the # 4 rule is a rule used for the information analysis p2.
  • the information analysis p2 receives the collection completion message from the information collection p1 or the processing completion message from the information processing p3, and stores the common data when the information to be analyzed can be processed by itself. Information is obtained from the unit 34 and analyzed. After the analysis is completed, the information analysis p2 transmits an analysis completion message to another operation component.
  • the # 5 rule is a rule used for the information analysis p2. According to the fifth rule, the information analysis p2 transmits an alarm message to another operation component when the obtained calculation value exceeds the threshold as a result of analyzing the information obtained from the common data storage unit 34.
  • the # 6 rule is a rule used for information processing p3. According to the sixth rule, if the information processing p3 receives the collection completion message from the information collection p1 and can process the information to be processed by itself, the information processing p3 acquires the information from the common data storage unit 34, and I do. The information processing p3 is newly stored in the common data storage unit 34 after the processing is completed. Further, the information processing p3 transmits a processing completion message to another operation component.
  • the # 7 rule is a rule used for the test p4.
  • the test p4 receives the alarm message and, when the test condition regarding the alarm target is satisfied (for example, when permission for executing the test is obtained from the maintenance person), the test p4 Perform tests (communication test, life and death test, etc.). In the test p4, after the test is completed, a test result message is transmitted to another operation component.
  • the # 8 rule is a rule used for the test p4.
  • the test p4 receives the alarm message and, when the test condition regarding the alarm target is not satisfied (for example, when the permission of the test execution is not obtained from the maintenance person), the other operation is performed. Send a message to the part indicating the requirements needed for testing.
  • the test p4 updates its own state and stores it in the common data storage unit 34.
  • the # 9 rule is a rule used for the test p4. According to the ninth rule, when the result of the test is NG, the test p4 transmits an alarm message to which information of the NG location is added to another operation component.
  • the # 10 rule is a rule used for the configuration change p5. According to the tenth rule, when the configuration change p5 receives an alarm message and has a change unit for an NG part, the change unit p5 executes the change unit.
  • the # 11 rule is a rule used for the configuration change p5. According to the eleventh rule, the configuration change p5 executes a restart of the application when there is a ping response from the network device but no response from the application, and when there is means for restarting the application.
  • the # 12 rule is a rule used for the maintainer UI (p6). According to the twelfth rule, when a message is received, the maintainer UI (p6) saves the received message as a log.
  • the # 13 rule is a rule used for the maintainer UI (p6). According to the thirteenth rule, when the maintenance person UI (p6) acquires the permission of the test execution by the test p4 from the maintenance person, the maintenance person UI (p6) transmits a test execution permission message to another operation component.
  • the action storage unit 33 in this specific example stores actions (functions) prepared for each operation component (p1 to p6).
  • FIG. 6 shows an example of an action stored by the action storage unit 33 in this specific example. As shown in FIG. 6, each action has “item number” indicating the identification number of the action, “operation component” indicating the type of the operation component that executes the action, and “function” indicating the name of the action. And an “argument required for execution” indicating an argument required for execution of the action.
  • the # 1 action is “message transmission” which is commonly executed by the operation components (p1 to p6). “Message transmission” transmits a message using the contents of the message and the like as arguments. Arguments necessary for execution of “message transmission” are the type and content of the message, the identifier of the operation component that is the destination, and the type of the operation component.
  • the # 2 action is “message reception” which is commonly executed by the operation components (p1 to p6). "Message reception” acquires a message from the message bus p7 (FIG. 3) and stores it in the message storage unit 31. An argument required for executing “message reception” is a message bus ID serving as an identifier of the message bus p7.
  • the # 3 action is “collect server information” executed by the information collection p1.
  • “Server information collection” collects information from server devices.
  • Arguments necessary for executing “server information collection” are the IP address of the target server device and metrics to be collected (data obtained by quantifying the collected information).
  • the # 4 action is “NW information collection” executed by the information collection p1.
  • “NW information collection” collects information from network devices.
  • Arguments necessary for executing “collection of NW information” are the IP address of the target network device and metrics to be collected.
  • the # 5 action is “outlier detection for time-series data” executed by the information analysis p2. “Outlier detection for time-series data” performs outlier detection for a predetermined threshold and outputs the time at which the outlier was detected. Arguments necessary for executing “outlier detection for time-series data” are time-series data and a period to be analyzed.
  • the # 6 action is “alarm message transmission” executed by the information analysis p2. “Alarm message transmission” creates an alarm message and transmits it using “message transmission”. Arguments required to execute “send alarm message” include the target metric (eg, data quantifying outliers that cause an alarm) and the alarm target period (eg, a predetermined period including the time at which an outlier was detected) It is.
  • target metric eg, data quantifying outliers that cause an alarm
  • the alarm target period eg, a predetermined period including the time at which an outlier was detected
  • the # 7 action is “statistical processing (calculation of representative value)” executed by the information processing p3.
  • the “statistical processing (calculation of representative value)” calculates a representative value of time-series data such as an average value, a median value, and a variance.
  • Arguments necessary for executing the “statistical processing (calculation of representative value)” are time-series data and a representative value to be output.
  • the # 8 action is “visualization” executed by the information processing p3.
  • the “visualization” creates a graph of the time-series data and outputs a URL for referring to the graph.
  • Arguments necessary for executing “visualization” are time-series data and a target period.
  • the # 9 action is “L3 alive monitoring of equipment” executed by test p4. “L3 alive monitoring for device” performs L3 (Layer # 3) alive monitoring (eg, ping). An argument required for executing “L3 alive monitoring for the device” is the IP address of the target device.
  • the # 10th action is “L4 port monitoring” executed by the test p4.
  • “L4 port monitoring” performs alive monitoring of the L4 (Layer # 4) port (eg, curl).
  • Arguments necessary for executing “L4 port monitoring” are the IP address of the target device, the target port, and the protocol.
  • the # 11th action is “VM specification change” executed by the configuration change p5.
  • the “change of VM specifications” changes the specifications of a VM (Virtual Machine: virtual machine) that is a part of the network configuration.
  • Arguments necessary for executing “change of VM specifications” are the identifier of the target VM and the contents after the change (eg, target value of the specifications). It should be noted that existing means for changing the specifications of the VM itself can be used, and the description thereof is omitted, but the configuration change p5 can appropriately select the changing means.
  • the # 12th action is “app restart” executed by the configuration change p5.
  • “Restart application” restarts an application that is part of the NW configuration.
  • Arguments necessary for executing “app restart” are the IP address of the target device and the restart method.
  • steady state First, an operation example in a steady state will be described.
  • the following procedures x1 to x3 are executed based on the actions stored in the action storage unit 33 (FIG. 6).
  • Procedure x1 Information collection p1 collects information from the target NW configuration (FIG. 3).
  • Procedure x2 Information processing p3 periodically processes (visualizes) collected information.
  • Procedure x3 Information analysis p2 analyzes collected information (outlier detection)
  • the information collection p1 transmits a message [11] to other operation components (p2 to p6) via the message bus p7.
  • the message [11] is a message indicating the completion notification of the periodic collection.
  • the test p4 and the configuration change p5 discard the message [11] because they do not have a rule to fire in the message [11] even if the message [11] is received (see FIG. 5).
  • the maintenance person UI (p6) saves the received message [11] as a log (see FIG. 5).
  • the information processing p3 Since the information processing p3 has a rule that fires with the message [11] (see FIG. 5), visualization of the collected information (procedure x2) is started upon receipt of the message [11].
  • the information processing p3 transmits the message [12] to the other operation components (p1, p2, p4 to p6) via the message bus p7.
  • Message [12] is a message indicating a notice of completion of visualization. Since the information collection p1, the information analysis p2, the test p4, and the configuration change p5 do not have a rule for firing in the message [12] even when the message [12] is received (see FIG. 5), the message [12] is discarded. I do.
  • the maintenance person UI (p6) saves the received message [12] as a log (see FIG. 5).
  • the outlier detection starts when the message [11] is received.
  • the information analysis p2 transmits the message [13] to the other operation components (p1, p3 to p6) via the message bus p7.
  • Message [13] is a message indicating the analysis result (analysis completed). Since the information collection p1, the information processing p3, the test p4, and the configuration change p5 do not have a rule for firing in the message [13] even when the message [13] is received (see FIG. 5), the message [13] is discarded. I do.
  • the maintenance person UI (p6) saves the received message [13] as a log (see FIG. 5).
  • FIG. 7B shows the relationship between the messages [11] to [13]. This association is determined based on the key, value, and metadata of each of the messages [11] to [13] (see FIG. 4 and the description referring to FIG. 4).
  • the operation components (p1 to p6) are loosely coupled via the message bus p7, and can receive all the messages [11] to [13] generated in the steady state, and Actions can be executed autonomously according to the firing rules.
  • the entire workflow of the failure recovery in the steady state can be established, and operation automation can be achieved.
  • Procedure 1 Information analysis p2 generates an alarm (outlier detected in In traffic (input traffic) of application A (e5) (FIG. 3))
  • Step 2 The test p4 starts (prepares) the test in response to the alarm, and presents the test conditions (a request for permission to execute the test).
  • Step 3 The maintenance person UI (p6) returns the permission of the test execution by the maintenance person.
  • Procedure 4 Test p4 is the execution of the alive monitoring test. As a result of alive monitoring, a dead service is found (ping returns)
  • Step 5 The configuration change p5 restarts the application (application A (e5) (FIG. 3)).
  • Step 6 The information analysis p2 notifies the cancellation of the alarm.
  • the information analysis p2 transmits the message [1] to the other operation components (p1, p3 to p6) via the message bus p7.
  • Message [1] is an alarm message indicating that an outlier has been detected.
  • the information collection p1, the information processing p3, and the configuration change p5 discard the message [1] because it does not have a rule for firing the message [1] even if the message [1] is received (see FIG. 5).
  • the maintenance person UI (p6) saves the received message [1] as a log (see FIG. 5).
  • the test Since the test p4 has a rule for firing with the message [1] (see FIG. 5), the test is started (prepared) upon receipt of the message [1] (procedure 2).
  • the test p4 transmits a message [2] to other operation components (p1 to p3, p5, p6) via the message bus p7.
  • Message [2] is a notification message indicating that starting a test corresponds to an alarm. Since the information collection p1, the information analysis p2, the information processing p3, and the configuration change p5 do not have a rule for firing in the message [2] even when the message [2] is received (see FIG. 5), the message [2] is used. Discard.
  • the maintenance person UI (p6) saves the received message [2] as a log (see FIG. 5).
  • Test p4 presents test conditions (request for permission to execute the test) in connection with the start of the test (procedure 2).
  • the test p4 transmits the message [3] to the other operation components (p1 to p3, p5, p6) via the message bus p7.
  • Message [3] is a message requesting a maintenance person to give permission to execute a test as a test condition. Since the information collection p1, the information analysis p2, the information processing p3, and the configuration change p5 do not have a rule to fire in the message [3] even when the message [3] is received (see FIG. 5), the message [3] is output. Discard.
  • the maintenance person UI (p6) saves the received message [3] as a log (see FIG. 5).
  • FIG. 8 (b) shows the relationships between the messages [1] to [3] and the messages [4] to [7] described later. This association is determined based on the key, value, and metadata of each of the messages [1] to [7] (see FIG. 4 and the description referring to FIG. 4). Based on the keys, values, and metadata of the messages [2] and [3], the messages [2] and [3] are siblings, and when the message [2] is transmitted, the message [3] is also transmitted. It is stipulated that
  • the maintenance person UI (p6) sends a message to the other operation components (p1 to p5) via the message bus p7. 4].
  • Message [4] is a test execution permission message indicating that test execution is permitted. Since the information collection p1, the information analysis p2, the information processing p3, and the configuration change p5 do not have a rule for firing in the message [4] even when the message [4] is received (see FIG. 5), the message [4] is output. Discard.
  • the alive monitoring test is executed upon receipt of the message [4] (procedure 4).
  • the test p4 transmits a message [5] to other operation components (p1 to p3, p5, p6) via the message bus p7.
  • Message [5] is a notification message indicating the test result (NG section is found to be application A (e5) (FIG. 3)).
  • the information collection p1, the information analysis p2, and the information processing p3 discard the message [5] because the information collection p1, the information processing p3, and the reception of the message [5] do not have a rule for firing the message [5] (see FIG. 5).
  • the maintenance person UI (p6) saves the received message [5] as a log (see FIG. 5).
  • FIG. 9B shows the relationship between the messages [1] to [7], which is the same as FIG. 8B.
  • the messages [2] and [5] are in a parent-child relationship, and after the message [2] (parent) is transmitted, a predetermined condition is satisfied. It is stipulated that a message [5] (child) is transmitted when the condition is satisfied.
  • the configuration change p5 Since the configuration change p5 has a rule to be fired by the message [5] (see FIG. 5), the application is restarted upon receipt of the message [5] (procedure 5).
  • the configuration change p5 transmits the message [6] to the other operation components (p1 to p4, p6) via the message bus p7.
  • Message [6] is a notification message indicating that the application has been executed.
  • the information collection p1, the information analysis p2, the information processing p3, and the test p4 do not have a rule for firing the message [6] even when the message [6] is received (see FIG. 5), so the message [6] is discarded. I do.
  • the maintenance person UI (p6) saves the received message [6] as a log (see FIG. 5).
  • the information analysis p2 When the information analysis p2 does not detect an outlier when the procedures x1 to x3 are executed, as shown in FIG. 9A, the information analysis p2 transmits the other operation component (p1) via the message bus p7. , P3 to p6).
  • Message [7] is a message indicating the analysis result (analysis completed), and notifies that the alarm has been cleared. Since the information collection p1, the information processing p3, the test p4, and the configuration change p5 do not have a rule for firing in the message [7] even when the message [7] is received (see FIG. 5), the message [7] is discarded. I do.
  • the maintenance person UI (p6) saves the received message [7] as a log (see FIG. 5).
  • the operation components (p1 to p6) are loosely coupled via the message bus p7, and can receive all of the messages [1] to [7] generated when an alarm occurs, and Actions can be performed autonomously in accordance with the firing rules.
  • the entire workflow of the failure recovery at the time of occurrence of an alarm can be established, and operation automation can be achieved.
  • test p4 executes the test, the permission of the maintenance person is required (the maintenance person UI (p6) transmits the message [4]).
  • the test p4 may execute the test without the permission of the maintenance person. For example, if test conditions such as the ability to obtain information in parallel with the test and the degree of influence on the service accompanying the test are below a predetermined threshold are satisfied, the test p4 is assumed to be able to execute the test without the permission of the maintenance person. Is also good.
  • the configuration change p5 may be configured to exchange messages as requiring the permission of a maintenance person to change the NW configuration.
  • permission of the maintenance person via the maintenance person UI (p6) may or may not be requested. It may be.
  • the operation process executed as a service maintenance operation is classified into functional units, and the operation process is divided into components.
  • the operation process is not limited to the functional unit but may be classified into a predetermined unit such as a workflow component size unit. May be.
  • Reference Signs List 1 operation device 10 input / output unit 11 message receiving unit 12 message transmitting unit 20 processing unit 21 received message processing unit 22 rule execution unit 23 action execution unit 24 transmission message processing unit 30 storage unit 31 message storage unit 32 firing rule storage unit 33 action Storage unit 34 Common data storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】オペレーション自動化の開発コストを低減させる。 【解決手段】オペレーション装置1は、オペレーションとして実行される運用プロセスを部品化した、複数種類の運用部品の間でやり取りされるメッセージを保存するメッセージ保存部31と、運用部品の各々に適用されるルールを保存する発火ルール保存部32と、運用部品の各々の動作内容を示すアクションを保存するアクション保存部33と、メッセージ保存部31および発火ルール保存部32を参照して、発火ルールが存在すれば、アクション保存部から当該発火ルールに該当するアクションを選択する処理を、運用部品ごとに実行するルール実行部22と、選択されたアクションを、運用部品ごとに実行するアクション実行部23と、実行したアクションの実行結果に基づいて、他の運用部品宛のメッセージを作成する処理を、運用部品ごとに実行する送信メッセージ処理部24と、を備える。

Description

オペレーション装置、および、オペレーション方法
 本発明は、オペレーション装置、および、オペレーション方法に関する。
 ネットワーク上で提供されるサービスの保守として、ネットワーク機器の障害対応や、サービスを利用するユーザの申告対応などのオペレーションが行われる。オペレーションを、保守者の知識や判断による人手対応で行った場合、対応時間の長期化によるサービス品質の低下、保守者スキルの揺らぎに起因するサービス品質の揺らぎ、保守者の稼働増大に伴う運用コスト増加、といったデメリットが存在する。
 そこで、近年、保守者の判断を自動化できるように支援し、保守者の知識や判断の必要性を低減させることで、上記デメリットを解消するオペレーション自動化技術の開発が進んでいる。オペレーション自動化技術では、オペレーションとして実行される運用プロセスの、判断基準および手順が明確であれば、保守者の知識や判断を定式化することができる。そこで、運用プロセスの契機(入力)から結果(出力)に至る一連の手順を、ルールベースでワークフローを定義することにより表現することで、オペレーション自動化を実現するオペレーション自動化システムの開発が進んでいる。保守者は、オペレーション自動化システムが判断して出力した結果報告を閲覧し、必要に応じて、特定のオペレーションに対する許可操作をするだけで済むため、保守負担は小さい。
 オペレーション自動化技術の具体例は、多く知られている。例えば、対象プロセスが、ソフトウェアのインストールや、設定などの構築となるプロセスに対しては、Ansibleなどの構成管理ツールが知られている。また、対象プロセスが、ハードウェアの性能の監視やプロセス死活状態の監視となるプロセスに対しては、Zabbixなどのネットワーク管理ソフトウェアが知られている。また、対象プロセスが、ソフトウェア開発における検証(継続的開発)や障害対応となるプロセスに対しては、JenkinsやStackStormなどの継続的インテグレーションツールが知られている。また、対象プロセスが、サービス構築や設定投入などのサービスオーダとなるプロセスに対しては、特許文献1が知られている。
特開2017-143452号公報
 一般的には、保守者の知識や判断による条件分岐は非常に複雑である。例えば、障害切り分けなどの試行錯誤型の運用プロセスが有する条件分岐が該当する。このため、判断基準および手順が明確な運用プロセスであっても、当該運用プロセスを表現するために定義するワークフローは、大規模かつ複雑である。このため、従来のオペレーション自動化は多大な開発コストを伴う、という問題がある。
 そこで、本発明は、上記事情に鑑みて、オペレーション自動化の開発コストを低減させることを課題とする。
 前記課題を解決するために、請求項1に記載の発明は、ネットワーク上のサービスに関するオペレーションを実行するオペレーション装置であって、前記オペレーションとして実行される運用プロセスを部品化した、複数種類の運用部品の間でやり取りされるメッセージを保存するメッセージ保存部と、前記運用部品の各々に適用されるルールを保存する発火ルール保存部と、前記運用部品の各々の動作内容を示すアクションを保存するアクション保存部と、前記メッセージ保存部および前記発火ルール保存部を参照して、前記ルールとして実行可能な発火ルールが存在すれば、前記アクション保存部から当該発火ルールに該当するアクションを選択する処理を、前記運用部品ごとに実行するルール実行部と、前記選択されたアクションを、前記運用部品ごとに実行するアクション実行部と、前記実行したアクションの実行結果に基づいて、他の前記運用部品宛のメッセージを作成する処理を、前記運用部品ごとに実行する送信メッセージ処理部と、を備える、ことを特徴とする。
 また、請求項4に記載の発明は、ネットワーク上のサービスに関するオペレーションを実行するオペレーション装置におけるオペレーション方法であって、前記オペレーション装置は、前記オペレーションとして実行される運用プロセスを部品化した、複数種類の運用部品の間でやり取りされるメッセージを保存するメッセージ保存部と、前記運用部品の各々に適用されるルールを保存する発火ルール保存部と、前記運用部品の各々の動作内容を示すアクションを保存するアクション保存部と、を有しており、前記メッセージ保存部および前記発火ルール保存部を参照して、前記ルールとして実行可能な発火ルールが存在すれば、前記アクション保存部から当該発火ルールに該当するアクションを選択する処理を、前記運用部品ごとに実行するステップと、前記選択されたアクションを、前記運用部品ごとに実行するステップと、前記実行したアクションの実行結果に基づいて、他の前記運用部品宛のメッセージを作成する処理を、前記運用部品ごとに実行するステップと、を実行する、ことを特徴とする。
 請求項1,4に記載の発明によれば、運用プロセスを部品化した運用部品の各々が自律的に動作した結果としてワークフロー全体を成立させることができるため、大規模かつ複雑なワークフローの全体そのものを定義する必要が無くなる。
 したがって、オペレーション自動化の開発コストを低減させることができる。
 また、請求項2に記載の発明は、請求項1に記載のオペレーション装置であって、前記オペレーションは、前記サービスが提供されるネットワークにおける障害復旧を実現するオペレーションであり、前記運用部品は、前記サービスを提供するネットワーク構成から情報を収集する情報収集部品と、前記収集した情報を解析する情報解析部品と、前記収集した情報を加工する情報加工部品と、前記ネットワークにおける障害確認用の試験を行う試験部品と、前記ネットワーク構成を変更する構成変更部品と、を含む、ことを特徴とする。
 また、請求項5に記載の発明は、請求項4に記載のオペレーション方法であって、前記オペレーションは、前記サービスが提供されるネットワークにおける障害復旧を実現するオペレーションであり、前記運用部品は、前記サービスを提供するネットワーク構成から情報を収集する情報収集部品と、前記収集した情報を解析する情報解析部品と、前記収集した情報を加工する情報加工部品と、前記ネットワークにおける障害確認用の試験を行う試験部品と、前記ネットワーク構成を変更する構成変更部品と、を含む、ことを特徴とする。
 請求項2,5に記載の発明によれば、障害復旧を実現するオペレーション自動化の開発コストを低減させることができる。
 また、請求項3に記載の発明は、請求項1または請求項2に記載のオペレーション装置であって、前記運用部品の各々の動作を保守者が許可するメッセージを、前記運用部品の各々に送信する保守者UI(ユーザインタフェース)を、前記運用部品として含む、ことを特徴とする。
 また、請求項6に記載の発明は、請求項4または請求項5に記載のオペレーション方法であって、前記運用部品の各々の動作を保守者が許可するメッセージを、前記運用部品の各々に送信する保守者UIを、前記運用部品として含む、ことを特徴とする。
 請求項3,6に記載の発明によれば、自動化されるオペレーションに保守者の判断を介入させる手段を提供することができ、サービスの品質保証を支援することができる。
 本発明によれば、オペレーション自動化の開発コストを低減させることができる。
本実施形態のオペレーション装置の機能構成図である。 本実施形態のオペレーション装置が実行するメッセージ処理のフローチャートである。 具体例におけるサービスを提供するNW構成の例、および、運用部品群のアーキテクチャの例を示す図である。 具体例におけるメッセージのデータ構造の例である。 具体例における発火ルール保存部のデータ構造の例を示す図である。 具体例におけるアクション保存部のデータ構造の例を示す図である。 (a)が、具体例の定常状態における運用部品群の動作例の説明図であり、(b)が、やり取りされるメッセージ群の関連性の説明図である。 (a)が、具体例のアラーム発生時における運用部品群の動作例(その1)の説明図であり、(b)が、やり取りされるメッセージ群の関連性の説明図である。 (a)が、具体例のアラーム発生時における運用部品群の動作例(その2)の説明図であり、(b)が、やり取りされるメッセージ群の関連性の説明図である。
 本発明を実施するための形態(実施形態)について、図面を参照しながら詳細に説明する。
 本実施形態では、サービス保守のオペレーションとして実行される運用プロセスを機能単位に分類し、運用プロセスを部品化する。機能ごとに分類された運用プロセスの部品を「運用部品」と呼ぶ。また、運用部品ごとに閉じたワークフロー(ワークフロー部品)を定義し、個別のルールに従って運用部品を動作させることで運用部品を自律化する。運用部品の各々は、所定のIF(インタフェース)を介して疎結合し、運用部品間のメッセージのやり取りを可能にする。本実施形態は、各運用部品が自律的に動作した結果としてワークフロー全体を成立させる自律制御ループ方式を提案する。この方式によれば、大規模かつ複雑なワークフローの全体そのものを定義する必要が無くなるため、オペレーション自動化の開発コストを低減させることができる。
≪構成≫
 まず、本実施形態のオペレーション装置の構成について説明する。図1に示すように、本実施形態のオペレーション装置1は、入出力部10と、処理部20と、記憶部30といったハードウェアを備えている。処理部20の具体例となるCPU(Central Processing Unit)が、記憶部30の具体例となるメモリ上に読み込んだプログラムを実行することにより、本実施形態に係るオペレーション装置1の機能を実現する。
 入出力部10は、メッセージ受信部11と、メッセージ送信部12とを備える。また、処理部20は、受信メッセージ処理部21と、ルール実行部22と、アクション実行部23と、送信メッセージ処理部24とを備える。また、記憶部30は、メッセージ保存部31と、発火ルール保存部32と、アクション保存部33と、共通データ保存部34とを備える。
 メッセージ受信部11は、入力装置2から入力されたメッセージを受信するインタフェースである。入力装置2は、例えば、保守者が操作する管理コンソールや、オペレーション装置1自身である(例えば、オペレーション装置1が有する運用部品間でやり取りされるメッセージを受信する)が、これらに限定されず、例えば、管理コンソールとは別体の計算機でもよい。また、メッセージは、運用部品間で情報のやり取りをするための情報媒体である。
 メッセージ送信部12は、処理部20の処理結果を出力する。処理部20の処理結果は、例えば、ファイルfとして出力されるが、これに限定されず、例えば、電文でもよい。また、処理部20の処理結果は、例えば、オペレーション装置1が有する運用部品が作成したメッセージであり、つまり、送信メッセージ処理部24が作成したメッセージであるが、これに限定されず、例えば、処理部20が有する図示しない機能部の出力結果でもよい。
 受信メッセージ処理部21は、メッセージ受信部11が受信したメッセージをメッセージ保存部31に保存する。
 ルール実行部22は、メッセージ保存部31および発火ルール保存部32を参照し、発火ルール保存部32に保存されているルールのうち、メッセージ保存部31に保存されているメッセージに対して、実行可能な(発火した)ルール(発火ルール)を実行する。ルールは、運用部品の自律的な動作を定義するものである。ルールは、運用部品ごとに用意されている。
 また、ルール実行部22は、アクション保存部33を参照し、実行したルールに該当するアクション(当該ルールで要求されるアクション)を選択する。アクションは、運用部品の動作内容を示すものであり、運用プロセスを機能単位に分類したときの各機能に相当する。アクションは、運用部品ごとに用意されている。また、ルール実行部22は、選択したアクションの実行指示をアクション実行部23に出力する。
 アクション実行部23は、アクション保存部33に保存されているアクションを参照し、ルール実行部22が選択したアクションを実行する。また、アクション実行部23は、アクションの実行結果に応じたメッセージの送信指示を送信メッセージ処理部24に出力する。また、アクション実行部23は、アクションの実行結果や、アクション実行に伴う運用部品の各々の状態を示す状態情報を共通データ保存部34に保存する。
 送信メッセージ処理部24は、メッセージ保存部31および共通データ保存部34を参照し、アクション実行部23によるアクションの実行結果に基づくメッセージを作成し、メッセージ送信部12に出力する。作成するメッセージは、メッセージ保存部31に保存されたメッセージ(メッセージ受信部11で受信したメッセージ)に応答するメッセージを含む。
 ルール実行部22、アクション実行部23、および、送信メッセージ処理部24が実行する処理は、運用部品ごとに繰り返される。送信メッセージ処理部24が作成するメッセージは、複数種類の運用部品の各々で作成されるメッセージであるが、ある運用部品で作成されたメッセージは残りの運用部品にブロードキャストで送信される。
 メッセージ保存部31は、受信メッセージ処理部21を介して、メッセージ受信部11が受信したメッセージを保存する。
 発火ルール保存部32は、運用部品に適用されるルールを保存する。
 アクション保存部33は、運用部品の動作内容を示すアクションを保存する。
 共通データ保存部34は、各運用部品が利用可能なデータを共通データとして保存する。共通データは、例えば、アクション実行部23によるアクションの実行結果や、アクション実行に伴う運用部品の各々の状態を示す状態情報であるが、これらに限定されない。
≪処理≫
 次に、本実施形態のオペレーション装置1が実行する処理ついて、図2を参照して説明する。図2に示す処理は、各運用部品に対して用意されたルール、つまり、発火ルール保存部32に保存されているルールに従って開始するが、例えば、所定の時間経過後に開始したり、メッセージを受信した場合に開始したりする。
 オペレーション装置1は、複数種類の運用部品ごとに、ステップS1a~ステップS1bのループ処理を実行する。以下、運用部品ごとの処理として説明を続ける。
 次に、オペレーション装置1は、ルール実行部22によって、メッセージ保存部31および発火ルール保存部32を参照し、発火ルールが存在するか否か判定する(ステップS2)。発火ルールが存在しない場合(ステップS2でNo)、対象の運用部品において図2の処理を終了し、別の運用部品について図2の処理を開始する。
 発火ルールが存在する場合(ステップS2でYes)、オペレーション装置1は、ルール実行部22によって、アクション保存部33を参照し、発火ルールに該当するアクションを選択する(ステップS3)。
 次に、オペレーション装置1は、アクション実行部23によって、ルール実行部22が選択したアクションを実行する(ステップS4)。
 次に、オペレーション装置1は、送信メッセージ処理部24によって、メッセージ保存部31および共通データ保存部34を参照し、アクションの実行結果に基づくメッセージを作成し、メッセージ送信部12に出力する(ステップS5)。
 以上で、対象の運用部品において図2の処理が終了し、すべての運用部品について図2の処理が繰り返される。メッセージ送信部12は、送信メッセージ処理部24から入力されたメッセージを残りの運用部品にブロードキャストで送信する。
 本実施形態によれば、運用プロセスを部品化した運用部品の各々が自律的に動作した結果としてワークフロー全体を成立させることができるため、大規模かつ複雑なワークフローの全体そのものを定義する必要が無くなる。
 したがって、オペレーション自動化の開発コストを低減させることができる。
 なお、運用部品の各々を表現するために定義するワークフロー部品は、それほど大規模でもなく、また、それほど複雑でもないため、オペレーション自動化のために多大な開発コストを必要としない。
 また、オペレーション自動化の対象となる運用プロセスを表現するワークフロー全体の設計は、従来手法で行われるが、本実施形態の運用部品を表現するワークフロー部品の設計も、従来手法と同様に行うことができる。このため、運用部品の作成方法そのものの説明は省略する。
≪具体例≫
 次に、本実施形態の具体例として、保守対象のサービスが提供されるネットワークにおける障害復旧を実現するオペレーション自動化について説明する。
 具体例のサービスを提供するNW(ネットワーク)構成は、図3の上部に示す通りである。具体例のNW構成は、複数のサービス利用者拠点とサービス提供拠点とがNWを介して接続する構成である。サービス提供拠点に配置されているNW機器e4、アプリA(e5)、アプリB(e6)、および、データベースe7と、サービス利用者拠点に配置されている端末e1,e2、および、NW機器e3との間で情報のやり取りが行われることで、端末e1,e2のユーザにサービスが提供される。
 本具体例は、障害復旧のオペレーションとして実行される運用プロセスを、図3の下部に示す通り、情報収集p1(情報収集部品:collector)、情報解析p2(情報解析部品:analyzer)、情報加工p3(情報加工部品:editor)、試験p4(試験部品:tester)、構成変更p5(構成変更部品:maintainer)、および、保守者UI(ユーザインタフェース)p6(administrator)、という6つの運用部品に分類する。図3の下部に示す通り、6つの運用部品がメッセージバスp7を介してメッセージのやり取りを可能とするインタフェースを設けることで、自律的に動作する6つの運用部品を疎結合させるアーキテクチャを構成する。
 情報収集p1は、NW構成(を担う各種ネットワーク機器(図3中符号e1~e7))から、サービス保守用の情報を収集する機能部である。情報収集p1は、タイムスタンプの付与、差分値算出、といった可逆的な情報処理を実行することができる。
 情報解析p2は、情報収集p1が収集した情報を解析したり、既存の情報(情報収集p1が収集した情報を含む)を演算処理して新しい情報を生成したりする機能部である。演算処理には、例えば、分類(例:異常判定、クラスタリング)、予測が含まれるが、これらに限定されず、例えば、状態推定を含めてもよい。
 情報加工p3は、情報収集p1が収集した情報を加工したり、既存の情報(情報収集p1が収集した情報を含む)に対する不可逆的な情報処理を実行する機能部である。不可逆的な情報処理には、例えば、ノイズ除去、相関関係算出、特徴抽出、キーワード抽出が含まれるが、これらに限定されず、例えば、統計処理を含めてもよい。また、情報加工p3は、不可逆的な情報処理の処理結果を可視化する処理(例:グラフ表示、画面表示)を実行することができる。
 試験p4は、ネットワークにおける障害確認用の試験を行う機能部である。試験には、例えば、ping、curl、traceroute、1callが含まれるが、これらに限定されない。試験p4は、試験用の試験呼を発行することができる。
 構成変更p5は、NW構成に対する変更オペレーションを発行し、NW構成を変更する機能部である。変更オペレーションには、例えば、ユーザ収容変更、リソース追加、サービス再作成が含まれるが、これらに限定されない。
 保守者UI(p6)は、保守者が操作する管理コンソールMが、他の運用部品(p1~p5)と、メッセージバスp7を介したメッセージのやり取りを行うUIを提供する機能部である。保守者UI(p6)は、各運用部品(p1~p5)の動作を保守者が許可するメッセージを、各運用部品(p1~p5)に送信することができる。保守者UI(p6)によって、自動化されるオペレーションに保守者の判断を介入させる手段を提供することができ、サービスの品質保証を支援することができる。
 各運用部品(p1~p6)は、既に説明した、受信メッセージ処理部21と、ルール実行部22と、アクション実行部23と、送信メッセージ処理部24の機能を有する。
 なお、説明の便宜上、各運用部品(p1~p6)にあてはまる場合、各運用部品(p1~p6)を「共通」(all-parts)と呼ぶ場合がある。
<メッセージの詳細>
 各運用部品(p1~p6)がやり取りするメッセージは、キー(key)と、値(value)と、メタデータ(metadata)の組を複数種類有して構成されている。具体例で扱うkey、value、metadataの組の例を図4に示す。図4に示すように、keyには、src、dst、src_type、dst_type、id、relation_msg、msg_type、expect_state、current_state、response_codeといった種類が存在するが、これらに限定されない。また、図4中、各keyに紐付けられたvalue、metadataの内容は例示である。metadataについては、keyの種類によっては存在しない場合があり、図4ではブランクで示す。
 srcは、メッセージの送信元を表しており、紐付けられたvalueには、送信元となる運用部品の識別子が格納される。
 dstは、メッセージの送信先を表しており、紐付けられたvalueには、送信先となる運用部品の識別子が格納される。
 src_typeは、メッセージの送信元の種別を表しており、紐付けられたvalueには、送信元となる運用部品の種別が格納される。
 dst_typeは、メッセージの送信先の種別を表しており、紐付けられたvalueには、送信先となる運用部品の種別が格納される。
 本具体例では、メッセージに含まれる、運用部品の種別は、collector、analyzer、editor、tester、maintainer、administratorである。
 idは、対象のメッセージを表しており、紐付けられたvalueには、対象のメッセージの識別子が格納される。
 relation_msgは、対象のメッセージ(idで識別されるメッセージ)に関連するメッセージを表しており、紐付けられたvalueには、当該関連するメッセージの識別子を表している。関連するメッセージとして、例えば、parent_msg(親メッセージ)、sibling_msg(兄弟関係のメッセージ)、child_msg(子メッセージ)が存在するがこれらに限定されない。
 msg_typeは、対象のメッセージのメッセージ種別を表しており、紐付けられたvalueには、当該メッセージ種別が格納される。メッセージ種別には、例えば、request(要求)、info(通知)、reply(応答)が存在するがこれらに限定されない。
 expect_stateは、msg_typeがrequestとなるメッセージが有するkeyであり、当該メッセージが処理されることより期待される結果を表している。紐付けられたvalueには、期待される結果の具体的数値、文字列が格納され、紐付けられたmetadataに示す形式に従う。紐付けられたmetadataには、数値の単位や意味などの記述内容の補足情報が格納される。
 current_stateは、msg_typeがinfoまたはreplyとなるメッセージが有するkeyであり、当該メッセージが処理されたときの処理結果を表している。紐付けられたvalueには、期待される結果の具体的数値、文字列が格納され、紐付けられたmetadataに示す形式に従う。紐付けられたmetadataには、数値の単位や意味などの記述内容の補足情報が格納される。
 response_codeは、msg_typeがreplyとなるメッセージが有するkeyであり、非同期処理の受領など、メッセージ間の関係性を表している。紐付けられたvalueには、メッセージ間の関係性を示すコード番号、受領先のURIなどが格納される。
<発火ルール保存部の詳細>
 本具体例における発火ルール保存部32は、運用部品(p1~p6)ごとに用意されたルールを保存している。本具体例における発火ルール保存部32が保存するルールの例を図5に示す。図5に示すように、各ルールは、当該ルールの識別番号を示す「項番」と、当該ルールで動作する運用部品の種別を示す「運用部品」と、当該ルールによる動作のトリガを示す「if」と、当該ルールよる運用部品の動作内容を示す「then」との関連付けで表現される。
 1番のルールは、各運用部品(p1~p6)に共通に用いられるルールである。1番のルールによって、各運用部品(p1~p6)は、新しいメッセージ(例えば、他の運用部品が、送信メッセージ処理部24によって作成したメッセージ)を受信した場合、当該メッセージをメッセージ保存部に保存する。
 2番のルールは、情報収集p1に用いられるルールである。2番のルールによって、情報収集p1は、前回の収集から所定期間経過した場合、定期収集を実行する。また、情報収集p1は、定期収集の成功後、他の運用部品に収集完了メッセージを送信する。
 3番のルールは、情報収集p1に用いられるルールである。3番のルールによって、情報収集p1は、例えば、保守者からの情報収集依頼を受信し、かつ、依頼対象の情報を自身で処理可能である場合、依頼受領の旨、および、保存先を示す情報を送信元(依頼者)に返信する。また、情報収集p1は、依頼対象の情報を依頼された期間収集し、共通データ保存部34に保存する。また、情報収集p1は、収集完了後、送信元に関連情報(処理成否など)を返信する。
 4番のルールは、情報解析p2に用いられるルールである。4番のルールによって、情報解析p2は、情報収集p1からの収集完了メッセージまたは情報加工p3からの加工完了メッセージを受信し、かつ、解析対象の情報を自身で処理可能である場合、共通データ保存部34から情報を取得し、解析する。また、情報解析p2は、解析完了後、他の運用部品に解析完了メッセージを送信する。
 5番のルールは、情報解析p2に用いられるルールである。5番のルールによって、情報解析p2は、共通データ保存部34から取得した情報の解析の結果、得られた算出値が閾値を超過した場合、他の運用部品にアラームメッセージを送信する。
 6番のルールは、情報加工p3に用いられるルールである。6番のルールによって、情報加工p3は、情報収集p1からの収集完了メッセージを受信し、かつ、加工対象の情報を自身で処理可能である場合、共通データ保存部34から情報を取得し、加工する。また、情報加工p3は、加工完了後、共通データ保存部34に新規保存する。また、情報加工p3は、他の運用部品に加工完了メッセージを送信する。
 7番のルールは、試験p4に用いられるルールである。7番のルールによって、試験p4は、アラームメッセージを受信し、かつ、アラーム対象に関する試験条件が満たされている場合(例えば、試験実行の許可が保守者から得られている場合)、アラーム対象の試験(疎通試験、死活試験など)を実行する。また、試験p4は、試験完了後、他の運用部品に試験結果メッセージを送信する。
 8番のルールは、試験p4に用いられるルールである。8番のルールによって、試験p4は、アラームメッセージを受信し、かつ、アラーム対象に関する試験条件が満たされていない場合(例えば、試験実行の許可が保守者から得られていない場合)、他の運用部品に、試験に必要な要件を示すメッセージを送信する。また、試験p4は、その後の返信で試験条件が満たされた場合、自身の状態を更新し、共通データ保存部34に保存する。
 9番のルールは、試験p4に用いられるルールである。9番のルールによって、試験p4は、試験の結果がNGであった場合、他の運用部品に、NG箇所の情報を付与したアラームメッセージを送信する。
 10番のルールは、構成変更p5に用いられるルールである。10番のルールによって、構成変更p5は、アラームメッセージを受信し、かつ、NG箇所に対する変更手段を有している場合、当該変更手段を実行する。
 11番のルールは、構成変更p5に用いられるルールである。11番のルールによって、構成変更p5は、ネットワーク機器のping応答はあるが、アプリケーションの応答は無く、かつ、当該アプリケーションの再起動手段を有している場合、当該アプリケーションの再起動を実行する。
 12番のルールは、保守者UI(p6)に用いられるルールである。12番のルールによって、保守者UI(p6)は、メッセージを受信した場合、受信したメッセージをログとして保存する。
 13番のルールは、保守者UI(p6)に用いられるルールである。13番のルールによって、保守者UI(p6)は、保守者から試験p4による試験実行の許可を取得した場合、他の運用部品に試験実行許可メッセージを送信する。
<アクション保存部の詳細>
 本具体例におけるアクション保存部33は、運用部品(p1~p6)ごとに用意されたアクション(機能)を保存している。本具体例におけるアクション保存部33が保存するアクションの例を図6に示す。図6に示すように、各アクションは、当該アクションの識別番号を示す「項番」と、当該アクションを実行する運用部品の種別を示す「運用部品」と、当該アクションの名称となる「機能」と、当該アクションの実行に必要な引数を示す「実行に必要な引数」との関連付けで表現される。
 1番のアクションは、各運用部品(p1~p6)が共通して実行する「メッセージ送信」である。「メッセージ送信」は、メッセージの内容等を引数とし、メッセージの送信を行う。「メッセージ送信」の実行に必要な引数は、メッセージの種別と、内容と、送信先となる運用部品の識別子と、当該運用部品の種別である。
 2番のアクションは、各運用部品(p1~p6)が共通して実行する「メッセージ受信」である。「メッセージ受信」は、メッセージバスp7(図3)からメッセージを取得し、メッセージ保存部31に保存する。「メッセージ受信」の実行に必要な引数は、メッセージバスp7の識別子となるメッセージバスIDである。
 3番のアクションは、情報収集p1が実行する「サーバ情報収集」である。「サーバ情報収集」は、サーバ機器からの情報収集を行う。「サーバ情報収集」の実行に必要な引数は、対象のサーバ機器のIPアドレスと、収集するメトリクス(収集した情報を定量化したデータ)である。
 4番のアクションは、情報収集p1が実行する「NW情報収集」である。「NW情報収集」は、NW機器からの情報収集を行う。「NW情報収集」の実行に必要な引数は、対象のネットワーク機器のIPアドレスと、収集するメトリクスである。
 5番のアクションは、情報解析p2が実行する「時系列データに対する外れ値検知」である。「時系列データに対する外れ値検知」は、所定の閾値に対する外れ値検知を行い、外れ値を検知した時刻を出力とする。「時系列データに対する外れ値検知」の実行に必要な引数は、時系列データと、解析対象の期間である。
 6番のアクションは、情報解析p2が実行する「アラームメッセージ送信」である。「アラームメッセージ送信」は、アラームメッセージを作成し、「メッセージ送信」を用いて送信する。「アラームメッセージ送信」の実行に必要な引数は、対象メトリクス(例:アラームの起因となる外れ値を定量化したデータ)と、アラーム対象期間(例:外れ値を検知した時刻を含む所定期間)である。
 7番のアクションは、情報加工p3が実行する「統計処理(代表値の算出)」である。「統計処理(代表値の算出)」は、平均値や中央値、分散など時系列データの代表値を算出する。「統計処理(代表値の算出)」の実行に必要な引数は、時系列データと、出力する代表値である。
 8番のアクションは、情報加工p3が実行する「可視化」である。「可視化」は、時系列データのグラフを作成し、グラフを参照するためのURLを出力とする。「可視化」の実行に必要な引数は、時系列データと、対象期間である。
 9番のアクションは、試験p4が実行する「機器に対するL3死活監視」である。「機器に対するL3死活監視」は、L3(Layer 3)死活監視(例:ping)を行う。「機器に対するL3死活監視」の実行に必要な引数は、対象機器のIPアドレスである。
 10番のアクションは、試験p4が実行する「L4ポート監視」である。「L4ポート監視」は、L4(Layer 4)ポートの死活監視(例:curl)を行う。「L4ポート監視」の実行に必要な引数は、対象機器のIPアドレスと、対象のポートと、プロトコルである。
 11番のアクションは、構成変更p5が実行する「VMのスペック変更」である。「VMのスペック変更」は、NW構成の一部となるVM(Virtual Machine:仮想マシン)のスペックの変更を行う。「VMのスペック変更」の実行に必要な引数は、対象VMの識別子と、変更後の内容(例:スペックの目標値)である。なお、VMのスペックの変更手段そのものは既存のものを用いることができ、説明を省略するが、構成変更p5は、当該変更手段を適宜選択することができる。
 12番のアクションは、構成変更p5が実行する「アプリ再起動」である。「アプリ再起動」は、NW構成の一部となるアプリケーションの再起動を行う。「アプリ再起動」の実行に必要な引数は、対象機器のIPアドレスと、再起動方法である。
<具体例の運用部品群の動作例>
 具体例の運用部品(p1~p6)の動作例について、図7~図9を参照して説明する。本動作例は、障害アラームが発生していない定常状態(図7)と、障害アラームが発生したときのアラーム発生時(図8、図9)とに分けることができる。
(定常状態)
 まず、定常状態の動作例について説明する。
 定常状態では、アクション保存部33(図6)に保存されているアクションに基づいて、例えば、以下の手順x1~x3が実行される。
 手順x1:情報収集p1が、対象のNW構成(図3)から情報収集。
 手順x2:情報加工p3が、収集情報を定期的に加工(可視化)
 手順x3:情報解析p2が、収集情報の解析(外れ値検知)
 図7(a)に示すように、手順x1が実行されたとき、情報収集p1は、メッセージバスp7を介して、他の運用部品(p2~p6)にメッセージ[11]を送信する。メッセージ[11]は、定期収集の完了通知を示すメッセージである。試験p4、構成変更p5は、メッセージ[11]を受信しても、メッセージ[11]で発火するルールを有しないため(図5参照)、メッセージ[11]を破棄する。保守者UI(p6)は、受信したメッセージ[11]をログとして保存する(図5参照)。
 なお、上記の「メッセージ[11]で発火するルールを有しないため(図5参照)」とは、「図5に示す1番~13番のルールのうち、2番~13番のルールを有しないため、」という意味であり、1番のルールは対象外とする。つまり、運用部品の種別が「共通」である1番のルールは必ず適用され、各運用部品(p1~p6)が受信した新しいメッセージは、メッセージ保存部31に保存されることとし、保存前に破棄されることはない。本動作例で以降に説明する他のメッセージ(メッセージ[12],[13],[1]~[7])に対しても上記の意味が適用される。
 情報加工p3は、メッセージ[11]で発火するルールを有しているため(図5参照)、メッセージ[11]の受信を契機にして、収集情報の可視化(手順x2)を開始する。手順x2が実行されたとき、情報加工p3は、メッセージバスp7を介して、他の運用部品(p1、p2、p4~p6)にメッセージ[12]を送信する。メッセージ[12]は、可視化の完了通知を示すメッセージである。情報収集p1、情報解析p2、試験p4、構成変更p5は、メッセージ[12]を受信しても、メッセージ[12]で発火するルールを有しないため(図5参照)、メッセージ[12]を破棄する。保守者UI(p6)は、受信したメッセージ[12]をログとして保存する(図5参照)。
 情報解析p2は、メッセージ[11]で発火するルールを有しているため(図5参照)、メッセージ[11]の受信を契機にして、外れ値検知(手順x3)を開始する。手順x3が実行されたとき、情報解析p2は、メッセージバスp7を介して、他の運用部品(p1、p3~p6)にメッセージ[13]を送信する。メッセージ[13]は、解析結果(解析完了)を示すメッセージである。情報収集p1、情報加工p3、試験p4、構成変更p5は、メッセージ[13]を受信しても、メッセージ[13]で発火するルールを有しないため(図5参照)、メッセージ[13]を破棄する。保守者UI(p6)は、受信したメッセージ[13]をログとして保存する(図5参照)。
 図7(b)には、メッセージ[11]~[13]間の関連性が示されている。この関連性は、メッセージ[11]~[13]の各々が有するkey、value、metadataに基づいて決定される(図4、および、図4を参照した説明を参照)。
 上記のように、各運用部品(p1~p6)は、メッセージバスp7を介して疎結合されており、定常状態で発生するメッセージ[11]~[13]を一通り受信することができるとともに、発火するルールに従って自律的にアクションを実行することができる。その結果、定常状態における障害復旧のワークフロー全体を成立させることができ、オペレーション自動化を達成することができる。
(アラーム発生時)
 次に、アラーム発生時の動作例について説明する。
 アラーム発生時では、アクション保存部33(図6)に保存されているアクションに基づいて、例えば、以下の手順1~6が実行される。
 手順1:情報解析p2が、アラームを発生(アプリA(e5)(図3)のInトラヒック(入力されたトラヒック)で外れ値を検知)
 手順2:試験p4が、アラームに対して試験を開始(準備)し、試験条件(試験実行の許可願い)を提示。
 手順3:保守者UI(p6)が、保守者による試験実行の許可を返信。
 手順4:試験p4が、死活監視の試験実行。死活監視の結果、死んでいるサービスを発見(pingは帰ってくる)
 手順5:構成変更p5が、アプリケーション(アプリA(e5)(図3))の再起動を実行。
 手順6:情報解析p2が、アラームの解除を通知。
 図8(a)に示すように、手順1が実行されたとき、情報解析p2は、メッセージバスp7を介して、他の運用部品(p1、p3~p6)にメッセージ[1]を送信する。メッセージ[1]は、外れ値を検知したことを示すアラームメッセージである。情報収集p1、情報加工p3、構成変更p5は、メッセージ[1]を受信しても、メッセージ[1]で発火するルールを有しないため(図5参照)、メッセージ[1]を破棄する。保守者UI(p6)は、受信したメッセージ[1]をログとして保存する(図5参照)。
 試験p4は、メッセージ[1]で発火するルールを有しているため(図5参照)、メッセージ[1]の受信を契機にして、試験を開始(準備)する(手順2)。試験を開始したとき、試験p4は、メッセージバスp7を介して、他の運用部品(p1~p3、p5、p6)にメッセージ[2]を送信する。メッセージ[2]は、試験を開始することでアラームに対応することを示す通知メッセージである。情報収集p1、情報解析p2、情報加工p3、構成変更p5は、メッセージ[2]を受信しても、メッセージ[2]で発火するルールを有しないため(図5参照)、メッセージ[2]を破棄する。保守者UI(p6)は、受信したメッセージ[2]をログとして保存する(図5参照)。
 また、試験p4は、試験開始に関連して、試験条件(試験実行の許可願い)を提示する(手順2)。試験条件を提示したとき、試験p4は、メッセージバスp7を介して、他の運用部品(p1~p3、p5、p6)にメッセージ[3]を送信する。メッセージ[3]は、試験条件として、試験実行の許可を保守者に求めるメッセージである。情報収集p1、情報解析p2、情報加工p3、構成変更p5は、メッセージ[3]を受信しても、メッセージ[3]で発火するルールを有しないため(図5参照)、メッセージ[3]を破棄する。保守者UI(p6)は、受信したメッセージ[3]をログとして保存する(図5参照)。
 図8(b)には、メッセージ[1]~[3]、および、後記するメッセージ[4]~[7]間の関連性が示されている。この関連性は、メッセージ[1]~[7]の各々が有するkey、value、metadataに基づいて決定される(図4、および、図4を参照した説明を参照)。メッセージ[2]、[3]が有するkey、value、metadataに基づいて、メッセージ[2]、[3]は兄弟関係にあり、メッセージ[2]が送信される場合、メッセージ[3]も送信されるように規定されている。
 図9(a)に示すように、手順2の後、手順3が実行されたとき、保守者UI(p6)は、メッセージバスp7を介して、他の運用部品(p1~p5)にメッセージ[4]を送信する。メッセージ[4]は、試験実行を許可することを示す試験実行許可メッセージである。情報収集p1、情報解析p2、情報加工p3、構成変更p5は、メッセージ[4]を受信しても、メッセージ[4]で発火するルールを有しないため(図5参照)、メッセージ[4]を破棄する。
 試験p4は、メッセージ[4]で発火するルールを有しているため(図5参照)、メッセージ[4]の受信を契機にして、死活監視の試験を実行する(手順4)。試験を実行したとき、試験p4は、メッセージバスp7を介して、他の運用部品(p1~p3、p5、p6)にメッセージ[5]を送信する。メッセージ[5]は、試験結果(NG箇所がアプリA(e5)(図3)であると判明)を示す通知メッセージである。情報収集p1、情報解析p2、情報加工p3は、メッセージ[5]を受信しても、メッセージ[5]で発火するルールを有しないため(図5参照)、メッセージ[5]を破棄する。保守者UI(p6)は、受信したメッセージ[5]をログとして保存する(図5参照)。
 なお、図9(b)には、図8(b)と同じとなる、メッセージ[1]~[7]間の関連性が示されている。メッセージ[2]、[5]が有するkey、value、metadataに基づいて、メッセージ[2]、[5]は親子関係にあり、メッセージ[2](親)が送信された後、所定の条件を満たした場合に、メッセージ[5](子)が送信されるように規定されている。
 構成変更p5は、メッセージ[5]で発火するルールを有しているため(図5参照)、メッセージ[5]の受信を契機にして、アプリケーションの再起動を実行する(手順5)。手順5が実行されたとき、構成変更p5は、メッセージバスp7を介して、他の運用部品(p1~p4、p6)にメッセージ[6]を送信する。メッセージ[6]は、アプリケーションを実行したことを示す通知メッセージである。情報収集p1、情報解析p2、情報加工p3、試験p4は、メッセージ[6]を受信しても、メッセージ[6]で発火するルールを有しないため(図5参照)、メッセージ[6]を破棄する。保守者UI(p6)は、受信したメッセージ[6]をログとして保存する(図5参照)。
 構成変更p5がアプリケーションの再起動を実行したことで、障害が解消されたため、実質的に定常状態(図7)と同等の状態に暫定的に戻る。よって、オペレーション装置1は、既に説明した、手順x1~x3を実行する。
 手順x1~x3を実行したとき、情報解析p2が外れ値を検知しなかった場合、図9(a)に示すように、情報解析p2は、メッセージバスp7を介して、他の運用部品(p1、p3~p6)にメッセージ[7]を送信する。メッセージ[7]は、解析結果(解析完了)を示すメッセージであり、アラーム解消を通知するものである。情報収集p1、情報加工p3、試験p4、構成変更p5は、メッセージ[7]を受信しても、メッセージ[7]で発火するルールを有しないため(図5参照)、メッセージ[7]を破棄する。保守者UI(p6)は、受信したメッセージ[7]をログとして保存する(図5参照)。
 上記のように、各運用部品(p1~p6)は、メッセージバスp7を介して疎結合されており、アラーム発生時で発生するメッセージ[1]~[7]を一通り受信することができるとともに、発火するルールに従って自律的にアクションを実行することができる。その結果、アラーム発生時における障害復旧のワークフロー全体を成立させることができ、オペレーション自動化を達成することができる。
≪その他≫
 本具体例では、試験p4が試験を実行する場合には、保守者の許可を必要とすることとして説明した(保守者UI(p6)がメッセージ[4]を送信)。しかし、試験p4は、保守者の許可なく試験を実行してもよい。例えば、試験と並行した情報取得ができること、試験に伴うサービスへの影響度が所定の閾値を下回るなどの試験条件を満たした場合、試験p4は、保守者の許可なく試験を実行することができるとしてもよい。
 また、本具体例に対して、例えば、構成変更p5がNW構成を変更するために、保守者の許可を必要とすることとしてメッセージのやり取りを行うようにしてもよい。
 また、保守者UI(p6)を除く運用部品(p1~p5)の各々が実行するプロセスについて、保守者UI(p6)を介した保守者の許可を求めるようにしてもよいし、求めないようにしてもよい。
 また、本実施形態では、サービス保守のオペレーションとして実行される運用プロセスを機能単位に分類し、運用プロセスを部品化したが、機能単位に限らず、ワークフロー部品のサイズ単位など、所定の単位で分類してもよい。
 本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
 本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
 その他、ハードウェア、ソフトウェア、フローチャートなどについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
 1   オペレーション装置
 10  入出力部
 11  メッセージ受信部
 12  メッセージ送信部
 20  処理部
 21  受信メッセージ処理部
 22  ルール実行部
 23  アクション実行部
 24  送信メッセージ処理部
 30  記憶部
 31  メッセージ保存部
 32  発火ルール保存部
 33  アクション保存部
 34  共通データ保存部

Claims (6)

  1.  ネットワーク上のサービスに関するオペレーションを実行するオペレーション装置であって、
     前記オペレーションとして実行される運用プロセスを部品化した、複数種類の運用部品の間でやり取りされるメッセージを保存するメッセージ保存部と、
     前記運用部品の各々に適用されるルールを保存する発火ルール保存部と、
     前記運用部品の各々の動作内容を示すアクションを保存するアクション保存部と、
     前記メッセージ保存部および前記発火ルール保存部を参照して、前記ルールとして実行可能な発火ルールが存在すれば、前記アクション保存部から当該発火ルールに該当するアクションを選択する処理を、前記運用部品ごとに実行するルール実行部と、
     前記選択されたアクションを、前記運用部品ごとに実行するアクション実行部と、
     前記実行したアクションの実行結果に基づいて、他の前記運用部品宛のメッセージを作成する処理を、前記運用部品ごとに実行する送信メッセージ処理部と、を備える、
     ことを特徴とするオペレーション装置。
  2.  前記オペレーションは、前記サービスが提供されるネットワークにおける障害復旧を実現するオペレーションであり、
     前記運用部品は、
     前記サービスを提供するネットワーク構成から情報を収集する情報収集部品と、
     前記収集した情報を解析する情報解析部品と、
     前記収集した情報を加工する情報加工部品と、
     前記ネットワークにおける障害確認用の試験を行う試験部品と、
     前記ネットワーク構成を変更する構成変更部品と、を含む、
     ことを特徴とする請求項1に記載のオペレーション装置。
  3.  前記運用部品の各々の動作を保守者が許可するメッセージを、前記運用部品の各々に送信する保守者UI(ユーザインタフェース)を、前記運用部品として含む、
     ことを特徴とする請求項1または請求項2に記載のオペレーション装置。
  4.  ネットワーク上のサービスに関するオペレーションを実行するオペレーション装置におけるオペレーション方法であって、
     前記オペレーション装置は、
     前記オペレーションとして実行される運用プロセスを部品化した、複数種類の運用部品の間でやり取りされるメッセージを保存するメッセージ保存部と、
     前記運用部品の各々に適用されるルールを保存する発火ルール保存部と、
     前記運用部品の各々の動作内容を示すアクションを保存するアクション保存部と、を有しており、
     前記メッセージ保存部および前記発火ルール保存部を参照して、前記ルールとして実行可能な発火ルールが存在すれば、前記アクション保存部から当該発火ルールに該当するアクションを選択する処理を、前記運用部品ごとに実行するステップと、
     前記選択されたアクションを、前記運用部品ごとに実行するステップと、
     前記実行したアクションの実行結果に基づいて、他の前記運用部品宛のメッセージを作成する処理を、前記運用部品ごとに実行するステップと、を実行する、
     ことを特徴とするオペレーション方法。
  5.  前記オペレーションは、前記サービスが提供されるネットワークにおける障害復旧を実現するオペレーションであり、
     前記運用部品は、
     前記サービスを提供するネットワーク構成から情報を収集する情報収集部品と、
     前記収集した情報を解析する情報解析部品と、
     前記収集した情報を加工する情報加工部品と、
     前記ネットワークにおける障害確認用の試験を行う試験部品と、
     前記ネットワーク構成を変更する構成変更部品と、を含む、
     ことを特徴とする請求項4に記載のオペレーション方法。
  6.  前記運用部品の各々の動作を保守者が許可するメッセージを、前記運用部品の各々に送信する保守者UIを、前記運用部品として含む、
     ことを特徴とする請求項4または請求項5に記載のオペレーション方法。
PCT/JP2019/023235 2018-06-21 2019-06-12 オペレーション装置、および、オペレーション方法 WO2019244733A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/253,241 US11349730B2 (en) 2018-06-21 2019-06-12 Operation device and operation method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018117673A JP7047621B2 (ja) 2018-06-21 2018-06-21 オペレーション装置、および、オペレーション方法
JP2018-117673 2018-06-21

Publications (1)

Publication Number Publication Date
WO2019244733A1 true WO2019244733A1 (ja) 2019-12-26

Family

ID=68982676

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/023235 WO2019244733A1 (ja) 2018-06-21 2019-06-12 オペレーション装置、および、オペレーション方法

Country Status (3)

Country Link
US (1) US11349730B2 (ja)
JP (1) JP7047621B2 (ja)
WO (1) WO2019244733A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021156972A1 (ja) * 2020-02-05 2021-08-12 日本電信電話株式会社 保守管理システム、メッセージ制御装置、メッセージ制御方法、およびプログラム
WO2021229640A1 (ja) * 2020-05-11 2021-11-18 日本電信電話株式会社 制御装置、制御方法、および制御プログラム
WO2022024277A1 (ja) * 2020-07-29 2022-02-03 日本電信電話株式会社 情報流通装置、情報流通方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043121A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 運用管理システム、運用管理方法及び運用管理装置
US20170091007A1 (en) * 2015-09-25 2017-03-30 Annapurna Dasari Management of a fault condition in a computing system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4576249B2 (ja) * 2005-01-27 2010-11-04 株式会社クラウド・スコープ・テクノロジーズ ネットワーク管理装置及び方法
US8280978B2 (en) * 2006-12-29 2012-10-02 Prodea Systems, Inc. Demarcation between service provider and user in multi-services gateway device at user premises
US7933743B2 (en) * 2007-11-28 2011-04-26 Cisco Technology, Inc. Determining overall network health and stability
US10075329B2 (en) * 2014-06-25 2018-09-11 A 10 Networks, Incorporated Customizable high availability switchover control of application delivery controllers
JP6533475B2 (ja) 2016-02-12 2019-06-19 日本電信電話株式会社 管理装置、および、ネットワークサービス管理方法
US10637758B2 (en) * 2016-12-19 2020-04-28 Jpmorgan Chase Bank, N.A. Methods for network connectivity health check and devices thereof
US10628251B2 (en) * 2017-09-26 2020-04-21 At&T Intellectual Property I, L.P. Intelligent preventative maintenance of critical applications in cloud environments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043121A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 運用管理システム、運用管理方法及び運用管理装置
US20170091007A1 (en) * 2015-09-25 2017-03-30 Annapurna Dasari Management of a fault condition in a computing system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"JP1", PRACTICE OF BUSINESS SYSTEM OPERATION MANAGEMENT BY JP 1, FIRST EDITION, 2009, TOKYO, pages 300 - 308, ISBN: 978-4-7741-4011-7 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021156972A1 (ja) * 2020-02-05 2021-08-12 日本電信電話株式会社 保守管理システム、メッセージ制御装置、メッセージ制御方法、およびプログラム
JP7335532B2 (ja) 2020-02-05 2023-08-30 日本電信電話株式会社 保守管理システム、メッセージ制御装置、メッセージ制御方法、およびプログラム
WO2021229640A1 (ja) * 2020-05-11 2021-11-18 日本電信電話株式会社 制御装置、制御方法、および制御プログラム
JP7393696B2 (ja) 2020-05-11 2023-12-07 日本電信電話株式会社 制御装置、制御方法、および制御プログラム
WO2022024277A1 (ja) * 2020-07-29 2022-02-03 日本電信電話株式会社 情報流通装置、情報流通方法及びプログラム
JP7456507B2 (ja) 2020-07-29 2024-03-27 日本電信電話株式会社 情報流通装置、情報流通方法及びプログラム

Also Published As

Publication number Publication date
JP7047621B2 (ja) 2022-04-05
US20210266238A1 (en) 2021-08-26
US11349730B2 (en) 2022-05-31
JP2019219983A (ja) 2019-12-26

Similar Documents

Publication Publication Date Title
WO2019244733A1 (ja) オペレーション装置、および、オペレーション方法
US11789760B2 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user
CN100549975C (zh) 计算机维护帮助系统及分析服务器
CN111052087B (zh) 控制系统、信息处理装置以及记录介质
JP2008191878A (ja) 遠隔診断・障害対応システム、遠隔診断・障害対応装置、遠隔診断・障害対応指示装置、遠隔診断・障害対応方法、及び遠隔診断・障害対応プログラム
JP2011210064A (ja) ログ情報収集システム、装置、方法及びプログラム
JP6280862B2 (ja) イベント分析システムおよび方法
US9461879B2 (en) Apparatus and method for system error monitoring
JP2010128597A (ja) 情報処理装置及び情報処理装置の運用方法
JP2004178296A (ja) ナレッジ型運用管理システム,方法およびプログラム
JP2011254179A (ja) ネットワーク解析支援装置、ネットワーク解析支援方法及びプログラム
JP2008148017A (ja) ノード検出装置及びプログラム
JP4257364B2 (ja) 通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置
JP6488600B2 (ja) 情報処理システム、プログラム及び情報処理装置
JP7421267B2 (ja) サービス提供用アプリケーションの保守管理システム、保守管理装置、保守管理方法、および、保守管理用プログラム
JP2014032598A (ja) インシデント管理システム及びその方法
WO2018173698A1 (ja) 監視システム、コンピュータ可読記憶媒体および監視方法
WO2022118427A1 (ja) 異常検知支援装置、異常検知支援方法及びプログラム
WO2022168196A1 (ja) 保守システム、情報処理装置、保守方法、およびプログラム
JP6515653B2 (ja) 情報処理装置、監視方法、及び、プログラム
JP2009211279A (ja) 操業データ管理サーバシステム
JP3941942B2 (ja) メッセージ相関システム、メッセージ相関方法
JP2011159234A (ja) 障害対応システム及び障害対応方法
CN114021054A (zh) 一种基于kvm结合工业互联网模式的运维管理方法
JP6287274B2 (ja) 監視装置、監視方法及び監視プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19821585

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19821585

Country of ref document: EP

Kind code of ref document: A1