WO2017094168A1 - Mutual supervisory system, failure notification method in mutual supervisory system, and non-transitory storage medium in which program for exerting failure notification function is recorded - Google Patents

Mutual supervisory system, failure notification method in mutual supervisory system, and non-transitory storage medium in which program for exerting failure notification function is recorded Download PDF

Info

Publication number
WO2017094168A1
WO2017094168A1 PCT/JP2015/084035 JP2015084035W WO2017094168A1 WO 2017094168 A1 WO2017094168 A1 WO 2017094168A1 JP 2015084035 W JP2015084035 W JP 2015084035W WO 2017094168 A1 WO2017094168 A1 WO 2017094168A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
core
edge
edges
fault information
Prior art date
Application number
PCT/JP2015/084035
Other languages
French (fr)
Japanese (ja)
Inventor
里司 藤恵
信之 雜賀
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2015/084035 priority Critical patent/WO2017094168A1/en
Publication of WO2017094168A1 publication Critical patent/WO2017094168A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring

Definitions

  • the present invention relates to a mutual monitoring system, a failure notification method in the mutual monitoring system, and a non-temporary storage medium in which a program for performing a failure notification function is recorded, and is particularly suitable for application to a so-called core edge configuration system. Is.
  • a system having a conventional core edge configuration has a plurality of NAS heads (edges) connected to a core in which a shared resource is stored, and performs exclusive control regarding access to the shared resource as the shared resource.
  • a management table is also included. In this management table, identifiers that can identify other NAS heads that are monitoring each NAS head itself are registered, and the number of times the other NAS heads are monitored for each NAS head corresponding to the identifier is registered. The count value to represent is registered.
  • the conventional core edge configuration system does not take into account the failure notification delay, and therefore, if the failure notification is delayed for some reason, the failure notification cannot be surely made.
  • the present invention has been made in consideration of the above points, and is a mutual monitoring system capable of reliably sharing information on a failure occurring in any one of a plurality of edges without delay in other edges.
  • the present invention intends to propose a failure notification method in a monitoring system and a non-temporary storage medium in which a program for performing a failure notification function is recorded.
  • the core in a mutual monitoring system having a core edge configuration including a core in which a shared resource is stored and a plurality of edges that access the shared resource, the core includes the shared resource.
  • a core side fault information management unit that manages all fault information at the plurality of edges as a resource is provided, and each of the plurality of edges includes the fault information based on the performance history of its own edge and the performance history of the other edge.
  • a fault information holding unit capable of holding other fault information based on the fault information holding unit, and notifying the core of the fault information related to its own edge in the fault information holding unit, and determining all fault information based on the fault information
  • the self-fault information reporting unit to be updated and reflected, and the other faults among the total fault information in the core-side fault information management unit. If the other fault information is newer than the other fault information already held, the other fault information held in the fault information holding unit is updated using the other fault information acquired from the all fault information.
  • the fault information acquisition unit and when the core further tries to update access to the fault information by a specific edge of the plurality of edges, In the state where update access is made to all the failure information by the edge of the other, instead of restricting update access by the specific edge, the request content of the update access by the specific edge is separately added as unreflected data. Contention that temporarily stores and updates all the failure information based on the unreflected data when update access by the other edge is completed Characterized in that it has a control unit.
  • the failure information holding unit capable of holding other failure information based on the performance history of other edges together with the own failure information based on the performance history of the own edge in the own failure information reporting unit.
  • the contention control unit when the contention control unit is caused to try update access to the entire failure information by a specific edge of the plurality of edges, the other edge of the plurality of edges In the state in which update access is made to all the failure information, instead of restricting update access by the specific edge, the request for update access by the specific edge is temporarily stored as unreflected data. And update all fault information based on the unreflected data when update access by the other edge is completed. Characterized in that to perform the contention control step of.
  • a program that records a failure notification function in a core edge configuration mutual monitoring system having a core in which a shared resource is stored and a plurality of edges that access the shared resource is recorded.
  • each of the plurality of edges stores failure information that can hold, in the computer, other failure information based on the performance history of the other edge together with the failure information based on the performance history of the edge.
  • the other fault information acquisition step to be updated is executed, and the core causes the computer to try update access to the entire fault information by a specific edge of the plurality of edges.
  • the update access request content by the specific edge is not reflected instead of restricting the update access by the specific edge. It is stored separately as data, and the unreflected data is triggered by the completion of update access by the other edge.
  • Based program to exhibit a failure notification function in the to execute the contention control step of updating the total fault information mutual monitoring system is characterized in that it is recorded.
  • the core in a core edge configuration mutual monitoring system having a core in which a shared resource is stored and a plurality of edges that access the shared resource, the core is a shared resource.
  • a core side fault information management unit for managing all fault information at a plurality of edges.
  • each of the plurality of edges has a failure information holding unit capable of holding other failure information based on the performance history of other edges together with its own failure information based on the performance history of its own edge. It has a self-failure information report unit that notifies the core of its own fault information regarding its own edge and updates and reflects all fault information based on its own fault information.
  • each of the plurality of edges further includes other fault information related to other edges among the plurality of edges in the total fault information in the core side fault information management unit, based on the other fault information already held. If the failure information is new, the other failure information held in the failure information holding unit is updated using the other failure information obtained from the entire failure information (other failure information obtaining unit).
  • the update access is made to all fault information by another edge of the plurality of edges. In this case, instead of restricting update access by a specific edge, the update access request by the specific edge is temporarily stored separately as unreflected data, and the update access by the other edge is stored.
  • the above-mentioned failure information is updated on the basis of the unreflected data in response to the completion of (contention control unit).
  • FIG. 1 shows an example of a hardware configuration of a mutual monitoring system 1 according to this embodiment
  • FIG. 2 shows a mutual monitoring system 1 according to this embodiment
  • An example of the software configuration is shown.
  • An example of this software configuration represents one form of a program for causing a computer to exhibit a failure notification function described later and to function as the mutual monitoring system 1 as in the present embodiment.
  • This program may be stored in a non-transitory storage medium that can be read by a computer.
  • a configuration for exerting the failure notification function in the mutual monitoring system 1 will be described.
  • the mutual monitoring system 1 of FIG. 1 has a configuration in which a core 200 and a plurality of edges 100A, 100B, and 100C (corresponding to “edge A”, “edge B”, and “edge C” shown in the figure) are connected by a network 301. ing.
  • the plurality of edges 100A, 100B, and 100C have substantially the same configuration in that each computer has a computer that is installed and provided at each user's office.
  • the core 200 includes an archive device 210 (hereinafter also referred to as “HCP”) and a RAID device 220.
  • the archive device 210 includes a CPU (Central Processing Unit) 211, a memory 212, a NIC (Network Interface Card) 213, an HBA (Host Bus Adapter) 214, and a built-in disk device 215.
  • CPU Central Processing Unit
  • NIC Network Interface Card
  • HBA Host Bus Adapter
  • the CPU 211 uses the memory 212 in which an inode management table 330 in FIG. 4C, which will be described in detail later, is stored as a work area, and performs an archive function for the kernel / device driver 219, the file system program 218, and the specified file.
  • An archiving program 217 that operates is operated.
  • the NIC 213 is an interface card with the network 301, and the HBA 214 functions as an interface with the RAID device 220.
  • the core 200 exchanges data with the plurality of edges 100A and 100B via the network 301.
  • the RAID device 220 has a function of storing data from the archive device 210 and providing stored data in response to the request.
  • the RAID device 130 has the same configuration as the RAID device 220.
  • the CPU 223 uses the memory 222 as a work area and operates an RTOS (Real Time Operating System) 229 and a RAID control program 228.
  • the RAID control program 228 increases the reliability of data reading and writing by performing RAID control using the disk devices 225 and 226.
  • the archive device 210 receives desired data by issuing a desired write command, and performs distributed storage management of data using both the disk device 225 and the disk device 226 by RAID control, for example. Do. When a failure occurs in any of the disk devices 225 and 226, the RAID device 220 continues processing using the data of the disk device in which no failure has occurred.
  • the RAID device 220 generally includes a channel adapter 221, a memory 222, a CPU 223, a controller 224, and disk devices 225 and 226.
  • a plurality of disk devices 225 and 226 are provided, and constitute a so-called RAID (Redundant Array Independent Disks).
  • the channel adapter 221 controls various processes in addition to the command reception process by the various programs that operate using the storage area of the memory 222 by the CPU 223.
  • the controller 224 controls writing and reading of data using the disk devices 225 and 226.
  • the edge 100A includes a plurality of client devices 110, a file storage device 120, a RAID device 130, a mail server 140, and an analysis server 150. These have a common configuration in that they are computers.
  • the RAID device 130 has the same function as the RAID device 220 described above with respect to the function of storing data and providing stored data, and thus the description thereof is omitted.
  • the file storage device 120 includes a CPU (Central Processing Unit) 121, a memory 122, a NIC (Network Interface Card) 123, a built-in disk device 124 and an HBA (Host Bus Adapter) 125.
  • CPU Central Processing Unit
  • memory 122 a memory 122
  • NIC Network Interface Card
  • HBA Hypervisor Adapter
  • the CPU 121 uses a memory 122 in which an inode management table 310 shown in FIG. 4A described later is stored as a work area, and stores a file sharing system 126, a kernel / device driver 129, a file system program 127, and a specified file.
  • a data mover program 128 that exhibits the function of movement is operated.
  • the NIC 123 is an interface card with the network 301, and the HBA 125 functions as an interface with peripheral computers such as the client device 110.
  • the edge 100A exchanges data with the core 200 and the edges 100B and 100C via the network 301.
  • the file storage devices 120A, 120B, and 120C are encoded so as to know which edge corresponds to them. Will be described below in regular order. This also applies to other computers such as the mail server 140, for example.
  • the file storage devices 120 of the plurality of edges 100A, 100B, and 100C for example, as shown in FIGS. 3, 5, and 6 described later, “HDI-A”, “HDI” An identifier such as “-B” or “HDI-C” is also used.
  • the plurality of client devices 110, the mail server 140, and the analysis server 150 are common in that they are basically computer-based devices with different processing speeds, but differ in that they are specialized in specific functions. ing.
  • Each of the plurality of client devices 110 includes a CPU 111, a memory 112, a NIC 113, and a built-in disk device 114, and makes a data write request to the file storage device 120 (120 ⁇ / b> A) to write data or a data read request to store. Read the completed data.
  • the CPU 111 operates an OS (Operating System) 119 and an application / Web browser 118 using the memory 112 as a work area, and stores data with the built-in disk device 114 and reads stored data as necessary.
  • the NIC 113 functions as an interface with the file storage apparatus 120.
  • the mail server 140 includes a CPU 141, a memory 142, a NIC 143, and a built-in disk device 144, respectively.
  • the CPU 141 uses the memory 112 as a work area, operates a mail server program 148 that relays transmission / reception of e-mails, and the OS 149, and stores e-mail data with the built-in disk device 144 as necessary. Read mail data.
  • the NIC 143 functions as an interface with the file storage device 120 and the analysis server 150.
  • the analysis server 150 includes a CPU 151, a memory 152, a NIC 153, and a built-in disk device 154.
  • the CPU 151 uses the memory 152 as a work area and operates an analysis program 158 and an OS 159 for analyzing whether or not a failure occurs at an edge such as a NAS head, and if necessary, between the internal disk device 154 and the internal disk device 154.
  • the analysis result data here corresponds to monitoring information including a measurement value for each region and a failure determination threshold ratio as shown in FIG. 3 described later.
  • the NIC 153 functions as an interface with the mail server 140.
  • FIG. 3 shows an example of the status file 300 format and its contents.
  • the status file 300 manages monitoring information and error information for each date and time and each edge host name ("HDI-A" and "HDI-B" in the figure).
  • the monitoring information includes measured values for each part and failure determination threshold ratio, and manages, for example, power supply voltage and fan temperature.
  • the error information includes the importance of the failure content and the notification status (corresponding to a notification status flag described later) regarding the message ID that can identify the failure content.
  • the importance is set to be important in the order of, for example, “F (Fatal)”> “E (Error)”> “W (Warning)”> “I (Information)”.
  • the notification status flag is updated to “done” when notification by e-mail using the e-mail notification function described later is completed, while “not yet” when such notification is not completed. And updated.
  • FIGS. 4A to 4C are diagrams showing examples of formats and contents of the inode management tables 310, 320, and 330 of the status file, respectively. is there. While the inode management table 330 shown in FIG. 4C is prepared not only on the core 200 side but also the inode management table 310 shown in FIG. 4A is prepared in the file storage apparatus 120 (120A) at the edge 100A, FIG. The inode management table 320 shown in (B) is also prepared in the file storage apparatus 120 (120B) at the edge 100B.
  • an Inode management table 330 is stored in the memory 212 of the archive device 210.
  • the Inode management table 310 is stored in the memory 122 of the file storage device 120, and on the edge 100B side, the Inode management table 320 has a file storage device (not shown) (hereinafter “file storage device 120B”). Stored in a memory (not shown).
  • Each Inode management table includes a file path name, version (corresponding to “Ver” in the figure), last update date / time, stub / flag, storage destination URL for each Inode number assigned to each node to identify each edge. And three block addresses.
  • the file path name represents the storage location of the status file.
  • Each block address is a head address that divides a file into a plurality of blocks and indicates the head of each block. In FIG. 4A and FIG. 4B, since they are stubs, for example, NULL is set.
  • the storage destination URL of the Inode management table 310 shown in FIG. 4A and the storage destination URL of the Inode management table 320 shown in FIG. 4B are the file path in the Inode management table 330 shown in FIG. Corresponds to the name. Note that the status file described above is managed on the file system as a file name “status.txt” in FIG.
  • FIG. 5 shows an example of the format and contents of the node management table 400 including information on each node.
  • the node management table 400 has a transfer schedule including a startup time and a transfer interval for each host name at each edge, and a failure notification function.
  • the failure notification function in each node indicates whether or not each node (edge) has a notification function by e-mail, as will be described in detail later.
  • the activation time represents the elapsed time since each node was activated
  • the transfer interval represents the interval at which the status file is transferred from each node toward the core 200.
  • FIG. 6 shows an example of the format and contents of the notification destination management table 500.
  • the notification destination management table 500 manages an e-mail address as an example of a contact and a notification timing to the contact for each host name at each edge.
  • FIG. 7 to 9 show examples of failure detection methods in the mutual monitoring system 1, respectively.
  • 7 shows an example of the contents of the failure monitoring process
  • FIG. 8 shows an example of the first half contents of the status file merge process shown in FIG. 7
  • FIG. 9 shows the latter half contents of the status file merge process shown in FIG. An example is shown.
  • step S1 the analysis server 150 determines whether or not a failure has occurred in its own node. If no failure has occurred in its own node, the analysis server 150 determines, for example, whether the transfer has been executed periodically or manually (step S2). When the transfer is not executed, step S1 is executed again, while when the rolling is executed, a status merge process described later is executed (step S100).
  • the analysis server 150 determines whether or not the e-mail notification function is ON (step S3). If the e-mail notification function is ON, the mail server 140 executes e-mail notification to the notification destination registered in the notification destination management table 500 (step S4).
  • the analysis server 150 updates the status file (step S5).
  • the notification status flag is updated from “not yet” to “done”.
  • the analysis server 150 executes a status file merge process (step S100).
  • FIG. 8 shows an example of the status file merge process executed at each edge.
  • this status file merging process is executed, for example, periodically or when manual transfer is executed, or when a failure occurs.
  • the file storage device 120A acquires a status file and unreflected data from the core 200 (step S101).
  • the file storage device 120A merges the unreflected data into the status file acquired from the core 200 (step S102).
  • the file storage apparatus 120A (HDI-A) additionally writes the contents of the version that is not reflected.
  • the file storage apparatus 120 merges the failure information (corresponding to the status file) of its own node into the status file acquired from the core 200 (step S103), and determines whether or not unreported failure information exists (step S103). S104).
  • the file storage apparatus 120 acquires an e-mail address as an example of a notification destination from the notification destination management table 500 (step S105). Next, the file storage device 120 sends an e-mail notification regarding unreported failure information, and changes the notification status flag of the status file to “completed” (step S106).
  • the file storage device 120 transmits monitoring information of each edge to the analysis server 150 (step S107).
  • the monitoring information includes, for example, a site-specific measurement value / failure determination threshold ratio.
  • the file storage device 120 deletes the unreflected data acquired from the core 200 (step S108).
  • the file storage apparatus 120 acquires the version information of the status file from the core 200 (step S109 in FIG. 9), and determines whether or not the status file SF of the core 200 (the Inode management table 330 for managing it) has been updated. Determination is made (step S110).
  • the file storage device 120 increments the version of the metadata of the status file obtained from the core 200 and merged with the fault information of its own node ( Step S111).
  • the file storage apparatus 120 transfers the updated status file to the status file storage directory in the core 200 (step S112).
  • the file storage device 120 deletes the status file originally held in its own node (step S113), returns to the caller (step S100 in FIG. 7), and continues the processing (in the case of the flowchart in FIG. 7, the subsequent processing is performed). Exit).
  • the file storage apparatus 120 moves the status file originally held in its own node to the conflict directory (unreflected data storage directory) MD (step S114). ).
  • the file storage device 120 uploads the status file in the conflict directory to the unreflected data storage directory MD in the core 200 (step S115), and returns to the caller (step S100 in FIG. 7) to continue the process ( In the case of the flowchart of FIG. 7, the processing is thereafter terminated).
  • FIG. 10 shows an example of a directory structure on the archive device 210 on the core 200 side.
  • a subordinate directory of a certain superordinate directory is represented in a vertical relationship by a line extending from the bottom of the superordinate directory to the top of the subordinate directory.
  • the archive device 210 stores a status file with a directory name “coreH”, for example, as a lower directory of the root directory RD shown as “/”.
  • a directory hereinafter referred to as “status file storage directory”) SD and a directory (hereinafter referred to as “non-reflected data storage directory”) MD for storing the above-described unreflected data with a directory name “conflictH”, for example.
  • a status file SF named “0” is stored in the status file storage directory SD.
  • FIGS. 11 and 12 each show an example of an outline of merge processing when a conflict occurs.
  • FIG. 12 shows the continuation of the flowchart shown in FIG. Note that the procedures (1) to (5) given in both figures represent an example of the processing procedure in each figure.
  • the core 200 stores a status file SF having the name “0” in the status file storage directory SD.
  • the status file SF with the name “0” is downloaded from the core 200 to the file storage device 120A (HDI-A), and the status file with the name “0” is downloaded to the file storage device 120A.
  • the status file named “0” is downloaded from the core 200 to the file storage device 120B.
  • the file storage device 120A uploads the status file SF with the name “A1” including the failure information regarding its own node to the status file storage directory SD of the core 200, as shown in the procedure (3) of FIG.
  • the status file SF with the name “0” is rewritten with the uploaded status file SF with the name “A1”.
  • the file storage apparatus 120B moves the status file SF with the name “B1” including its own failure information to the status file storage directory SD of the core 200, as shown in step (5) of FIG. Try to upload.
  • the file storage apparatus 120B determines that the status file SF existing in the status file storage directory SD has been changed by another edge as shown in the procedure (5) of FIG. It is updated and it is confirmed whether the version is other than “0”. This is recognition that the status file SF of version “0” exists in the status file storage directory SD of the core 200 as described above for the file storage device 120B (HDI-B). Therefore, when there is a status file SF whose version is other than “0”, it is confirmed whether or not there is a possibility of conflict with the update by other edges.
  • the file storage device 120B When the file storage device 120B (HDI-B) detects a conflict based on the fact that the version of the status file SF existing in the status file storage directory SD of the core 200 is other than “0”, the file storage device 120B (HDI-B) uploads as described above.
  • the status file SF (version “B1”) to be executed is uploaded to the unreflected data storage directory MD as shown in step (6) of FIG. 11 instead of the planned status file storage directory SD. .
  • the file storage device 120C that could not reflect the status file SF resolves the above-described conflict as shown in the procedure (1) of FIG.
  • the status file SF whose version is updated to “A1” is downloaded from the core 200.
  • the file storage device 120C stores the status file SF (version “B1]) stored in the non-reflected data storage directory MD and put on hold earlier as shown in step (2) of FIG. Download from the directory MD.
  • the file storage apparatus 120C based on the two downloaded status files SF (version “A1” and version “B1”) and the status file SF updated by the file storage apparatus 120C itself (for example, version “C1”). Then, as shown in the procedure (3) of FIG. 12, these are merged, for example, a status file SF of version “ABC” is generated, and this is uploaded to the status file storage directory SD of the core 200.
  • the status file SF (version “A1”) in the status file storage directory SD is updated.
  • the status file SF (version “B1”) existing in the unreflected data storage directory MD is triggered by the fact that the conflict has been resolved for the status file SF existing in the status file storage directory SD. Is overwritten and reflected in the status file SF existing in the status file storage directory SD.
  • the plurality of edges 100A and 100B can share all the fault information regarding the plurality of edges 100A and 100B in synchronization with each other through the core.
  • the conflicting update access is completed, all fault information updated by a specific edge is reliably notified between the plurality of edges 100A and 100B without delay. Will be grasped.
  • the CPU 211 (contention control unit) of the archive device 210 in the core 200 starts the status file storage directory SD (all fault information storage directory) from one of the edges 100A, 100B, 100C. )
  • the status file storage directory SD all fault information storage directory
  • the CPU 211 of the archive device 210 uses the new status file to temporarily store the stored status file SF in the unreflected data storage directory MD when the update access of the stored status file SF is completed.
  • the status file for which the update access has been completed is updated using a new status file SF (data update unit).
  • the plurality of edges 100A, 100B, and 100C have the contents of the status file SF with each other, so that a failure that occurs at a specific edge among the plurality of edges 100A, 100B, and 100C can be caused by other edges. I can grasp it. For this reason, it is not necessary to place an administrator in each of the plurality of edges 100A, 100B, 100C and the core 200, and the failure between the plurality of edges 100A, 100B, 100C and between them and the core 200 is suppressed while reducing costs.
  • the notification function can be made more reliable.
  • the status file storage directory SD in the core 200 even if there is a request for update access of all the fault information of the core from a plurality of edges 100A, 100B, 100C in a short time, all faults after the update It is possible to ensure that there is no inconsistency in information. As a result, even when a large number of edges are provided, the failure notification function can be reliably operated between all the edges 100A, 100B, and 100C. Therefore, the latest failure information is stored in all the plurality of edges 100A, 100B, and 100C. Can be shared quickly.
  • FIG. 13 shows an example of an overview of failure information e-mail notification processing.
  • the archive device 210 also abbreviated as “HCP” in the present embodiment
  • This e-mail notification process will be described mainly using the status file storage directory SD.
  • the file storage of the edge 100A is used instead.
  • the device 120A (corresponding to “HDI-A” in the figure) indicates that the mail unreported information indicating that failure notification using electronic mail cannot be performed is the archive device 210 of the core 200. Is uploaded to the status file storage directory SD. Note that failure notification using e-mail cannot be performed as described above, for example, when the mail server 140A is not provided in the edge 100A, or a failure occurs in the e-mail transmission function of the mail server 140A itself. Assumes that.
  • the file storage device 120B downloads the mail non-notification information in the status file storage directory SD as shown in the procedure (3) in FIG. Instead, an e-mail is used for the specific manager (management terminal) of the file storage apparatus 120A (HDI-A), and the contents based on the unreported mail information are used as the contents of the mail server 140B (the “mail server- B ”)) that the failure notification is not possible using electronic mail.
  • the plurality of edges 100A, 100B, and 100C are respectively the status file versions (for example, the edge 100A) of the plurality of edges 100A, 100B, and 100C in the core 200 (the last in FIG. 4). It is determined that a communication failure has occurred between the other edge 100A and the core 200 based on the fact that the update date / time column) has not been updated for a predetermined period, that is, for example, is older than a predetermined threshold version. You may make it do.
  • the present invention can be widely applied to a mutual monitoring system having a core edge configuration, a failure notification method in the mutual monitoring system, and a non-temporary storage medium in which a program for performing a failure notification function is recorded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

[Problem] To provide a mutual supervisory system with a core edge structure capable of reinforcing a notification function of a failure caused in any one of a plurality of edges, a failure notification method in the mutual supervisory system, and a non-transitory storage medium in which a program for exerting a failure notification function is recorded. [Solution] A plurality of edges each has a failure information holding unit capable of holding own failure information based on a performance history of an own edge and another piece of failure information based on a performance history of another edge, notifies a core of the own failure information relating to the own edge in the failure information holding unit, and updates and reflects all pieces of failure information on the basis of the own failure information.

Description

相互監視システム、相互監視システムにおける障害通知方法、及び、障害通知機能を発揮させるプログラムが記録された非一時的記憶媒体Mutual monitoring system, fault notification method in the mutual monitoring system, and non-transitory storage medium in which a program for performing the fault notification function is recorded
 本発明は、相互監視システム、相互監視システムにおける障害通知方法、及び、障害通知機能を発揮させるプログラムが記録された非一時的記憶媒体に関し、特に、いわゆるコアエッジ構成のシステムなどに適用して好適なものである。 The present invention relates to a mutual monitoring system, a failure notification method in the mutual monitoring system, and a non-temporary storage medium in which a program for performing a failure notification function is recorded, and is particularly suitable for application to a so-called core edge configuration system. Is.
 従来のコアエッジ構成のシステムは、共有リソースが格納されているコアに接続されている複数のNASヘッド(エッジ)を有し、その共有リソースとして、この共有リソースへのアクセスに関して排他制御を行うための管理テーブルも含められている。この管理テーブルには、各NASヘッド自らを監視している他のNASヘッドを特定しうる識別子が登録されているとともに、その識別子に対応するNASヘッドごとに他のNASヘッドにより監視された回数を表すカウント値が登録されている。 A system having a conventional core edge configuration has a plurality of NAS heads (edges) connected to a core in which a shared resource is stored, and performs exclusive control regarding access to the shared resource as the shared resource. A management table is also included. In this management table, identifiers that can identify other NAS heads that are monitoring each NAS head itself are registered, and the number of times the other NAS heads are monitored for each NAS head corresponding to the identifier is registered. The count value to represent is registered.
 このような従来のコアエッジ構成のシステムでは、上記監視された回数を表すカウンタ値を基に各NASヘッドに障害が発生しているか否かが判定されており、あるNASヘッドに障害を検知した場合、監視相手を別のNASヘッドに組み替えることによって監視を継続している(特許文献1参照)。 In such a conventional core edge configuration system, whether or not a failure has occurred in each NAS head is determined based on the counter value indicating the number of times of monitoring, and a failure is detected in a certain NAS head Monitoring is continued by changing the monitoring partner to another NAS head (see Patent Document 1).
特開2005-141672号公報JP 2005-141672 A
 しかしながら、従来のコアエッジ構成のシステムでは、障害通知の遅延が考慮されていないため、何らかの理由により障害通知に遅延が生じた場合、その障害通知が確実になされるとは云えなかった。 However, the conventional core edge configuration system does not take into account the failure notification delay, and therefore, if the failure notification is delayed for some reason, the failure notification cannot be surely made.
 本発明は以上の点を考慮してなされたもので、複数のエッジのうちいずれかのエッジに生じた障害に関する情報を他のエッジにおいても遅滞なく確実に共有することができる相互監視システム、相互監視システムにおける障害通知方法、及び、障害通知機能を発揮させるプログラムが記録された非一時的記憶媒体を提案しようとするものである。 The present invention has been made in consideration of the above points, and is a mutual monitoring system capable of reliably sharing information on a failure occurring in any one of a plurality of edges without delay in other edges. The present invention intends to propose a failure notification method in a monitoring system and a non-temporary storage medium in which a program for performing a failure notification function is recorded.
 かかる課題を解決するため、本発明においては、共有リソースが格納されるコアと、前記共有リソースに対してアクセスする複数のエッジと、を有するコアエッジ構成の相互監視システムにおいて、前記コアは、前記共有リソースとして前記複数のエッジにおける全障害情報を管理するコア側障害情報管理部を備え、前記複数のエッジは、それぞれ、自らのエッジの性能履歴に基づく自らの障害情報とともに他のエッジの性能履歴に基づく他の障害情報を保持可能な障害情報保持部と、前記障害情報保持部における自らのエッジに関する前記自らの障害情報を前記コアに通知し、前記自らの障害情報に基づいて前記全障害情報を更新し反映する自障害情報報告部と、前記コア側障害情報管理部における前記全障害情報のうち他のエッジに関する他の障害情報が前記保持済みの他の障害情報よりも新しい場合、前記全障害情報から取得した他の障害情報を用いて前記障害情報保持部に保持されている他の障害情報を更新する他障害情報取得部と、を有し、前記コアは、さらに、前記複数のエッジのうちのある特定のエッジによって前記全障害情報への更新アクセスを試行した際、前記複数のエッジのうちの他のエッジによって前記全障害情報に対して更新アクセスがなされている状態である場合、前記特定のエッジによる更新アクセスを規制する代わりに、前記特定のエッジによる更新アクセスの要求内容を未反映データとして別途一時的に格納しておき、前記他のエッジによる更新アクセスが完了したことを契機として前記未反映データに基づいて前記全障害情報を更新する競合制御部を有することを特徴とする。 In order to solve such a problem, in the present invention, in a mutual monitoring system having a core edge configuration including a core in which a shared resource is stored and a plurality of edges that access the shared resource, the core includes the shared resource. A core side fault information management unit that manages all fault information at the plurality of edges as a resource is provided, and each of the plurality of edges includes the fault information based on the performance history of its own edge and the performance history of the other edge. A fault information holding unit capable of holding other fault information based on the fault information holding unit, and notifying the core of the fault information related to its own edge in the fault information holding unit, and determining all fault information based on the fault information The self-fault information reporting unit to be updated and reflected, and the other faults among the total fault information in the core-side fault information management unit. If the other fault information is newer than the other fault information already held, the other fault information held in the fault information holding unit is updated using the other fault information acquired from the all fault information. The fault information acquisition unit, and when the core further tries to update access to the fault information by a specific edge of the plurality of edges, In the state where update access is made to all the failure information by the edge of the other, instead of restricting update access by the specific edge, the request content of the update access by the specific edge is separately added as unreflected data. Contention that temporarily stores and updates all the failure information based on the unreflected data when update access by the other edge is completed Characterized in that it has a control unit.
 また、本発明においては、共有リソースが格納されるコアと、前記共有リソースに対してアクセスする複数のエッジと、を有するコアエッジ構成の相互監視システムにおける障害通知方法において、前記複数のエッジでは、それぞれ、自障害情報報告部に、自らのエッジの性能履歴に基づく自らの障害情報とともに他のエッジの性能履歴に基づく他の障害情報を保持可能な障害情報保持部における自らのエッジに関する前記自らの障害情報を前記コアに通知させ、前記自らの障害情報に基づいて前記全障害情報を更新し反映させる自障害情報報告ステップと、他障害情報取得部に、前記共有リソースとして前記コアのコア側障害情報管理部によって管理されている前記複数のエッジにおける全障害情報のうち他のエッジに関する他の障害情報が前記保持済みの他の障害情報よりも新しい場合、前記全障害情報から取得した他の障害情報を用いて前記障害情報保持部に保持されている他の障害情報を更新させる他障害情報取得ステップと、を実行させ、前記コアでは、競合制御部に、前記複数のエッジのうちの特定のエッジによって前記全障害情報への更新アクセスを試行させた際、前記複数のエッジのうちの他のエッジによって前記全障害情報に対して更新アクセスがなされている状態である場合、前記特定のエッジによる更新アクセスを規制させる代わりに、前記特定のエッジによる更新アクセスの要求内容を未反映データとして別途一時的に格納させておき、前記他のエッジによる更新アクセスが完了したことを契機として前記未反映データに基づいて前記全障害情報を更新させる競合制御ステップを実行させることを特徴とする。 Further, in the present invention, in the failure notification method in the mutual monitoring system of the core edge configuration having a core in which a shared resource is stored and a plurality of edges that access the shared resource, The failure information holding unit capable of holding other failure information based on the performance history of other edges together with the own failure information based on the performance history of the own edge in the own failure information reporting unit. A self-failure information reporting step of notifying the core of information and updating and reflecting the total failure information based on the failure information of the own device, and the other-failure information acquisition unit, the core-side failure information of the core as the shared resource Other fault information related to other edges among all fault information at the plurality of edges managed by the management unit If the fault information is newer than the other fault information already held, the other fault information acquisition step of updating other fault information held in the fault information holding unit using the other fault information acquired from the total fault information. In the core, when the contention control unit is caused to try update access to the entire failure information by a specific edge of the plurality of edges, the other edge of the plurality of edges In the state in which update access is made to all the failure information, instead of restricting update access by the specific edge, the request for update access by the specific edge is temporarily stored as unreflected data. And update all fault information based on the unreflected data when update access by the other edge is completed. Characterized in that to perform the contention control step of.
 また、本発明においては、共有リソースが格納されるコアと、前記共有リソースに対してアクセスする複数のエッジと、を有するコアエッジ構成の相互監視システムにおいて障害通知機能を発揮させるプログラムが記録された非一時的な記録媒体において、前記複数のエッジでは、それぞれ、コンピュータに、自らのエッジの性能履歴に基づく自らの障害情報とともに他のエッジの性能履歴に基づく他の障害情報を保持可能な障害情報保持部における自らのエッジに関する前記自らの障害情報を前記コアに通知させ、前記自らの障害情報に基づいて前記全障害情報を更新し反映させる自障害情報報告ステップと、前記共有リソースとして前記コアのコア側障害情報管理部によって管理されている前記複数のエッジにおける全障害情報のうち他のエッジに関する他の障害情報が前記保持済みの他の障害情報よりも新しい場合、前記全障害情報から取得した他の障害情報を用いて前記障害情報保持部に保持されている他の障害情報を更新させる他障害情報取得ステップと、を実行させ、前記コアでは、コンピュータに、前記複数のエッジのうちの特定のエッジによって前記全障害情報への更新アクセスを試行させた際、前記複数のエッジのうちの他のエッジによって前記全障害情報に対して更新アクセスがなされている状態である場合、前記特定のエッジによる更新アクセスを規制させる代わりに、前記特定のエッジによる更新アクセスの要求内容を未反映データとして別途一時的に格納させておき、前記他のエッジによる更新アクセスが完了したことを契機として前記未反映データに基づいて前記全障害情報を更新させる競合制御ステップを実行させて相互監視システムにおいて障害通知機能を発揮させるプログラムが記録されたことを特徴とする。 Further, in the present invention, a program that records a failure notification function in a core edge configuration mutual monitoring system having a core in which a shared resource is stored and a plurality of edges that access the shared resource is recorded. In the temporary recording medium, each of the plurality of edges stores failure information that can hold, in the computer, other failure information based on the performance history of the other edge together with the failure information based on the performance history of the edge. A self-failure information reporting step of notifying the core of the failure information related to the edge of itself in the unit, updating and reflecting the failure information based on the failure information of the core, and the core of the core as the shared resource Of all the fault information at the plurality of edges managed by the side fault information management unit If the other fault information related to the edge of the fault is newer than the other fault information already held, the other fault information held in the fault information holding unit is obtained using the other fault information acquired from the total fault information. The other fault information acquisition step to be updated is executed, and the core causes the computer to try update access to the entire fault information by a specific edge of the plurality of edges. When the update access is made to the entire failure information by another edge, the update access request content by the specific edge is not reflected instead of restricting the update access by the specific edge. It is stored separately as data, and the unreflected data is triggered by the completion of update access by the other edge. Based program to exhibit a failure notification function in the to execute the contention control step of updating the total fault information mutual monitoring system is characterized in that it is recorded.
 本発明によれば、複数のエッジのうちいずれかのエッジに生じた障害に関する情報を他のエッジにおいても遅滞なく確実に共有することができる。 According to the present invention, it is possible to reliably share information on a failure that has occurred at any one of a plurality of edges without delay even at other edges.
本実施の形態による相互監視システムのハードウェア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of the mutual monitoring system by this Embodiment. 本実施の形態による相互監視システムのソフトウェア構成の一例を示すブロック図である。It is a block diagram which shows an example of the software configuration of the mutual monitoring system by this Embodiment. ステータスファイルの内容の一例を示す図である。It is a figure which shows an example of the content of a status file. ステータスファイルのinode管理テーブルのフォーマット及び内容の一例を示す図である。It is a figure which shows an example of the format and content of the inode management table of a status file. 各ノードの情報を含むノード管理テーブルのフォーマット及び内容一例を表す図である。It is a figure showing an example of the format of the node management table containing the information of each node, and the content. 通知先管理テーブルのフォーマット及び内容の一例を示す図である。It is a figure which shows an example of a format and content of a notification destination management table. 相互監視システムにおける障害通知方法の一例を表すフローチャートである。It is a flowchart showing an example of the failure notification method in a mutual monitoring system. 相互監視システムにおける障害通知方法の一例を表すフローチャートである。It is a flowchart showing an example of the failure notification method in a mutual monitoring system. 相互監視システムにおける障害通知方法の一例を表すフローチャートである。It is a flowchart showing an example of the failure notification method in a mutual monitoring system. コア側におけるアーカイブ装置上のディレクトリ構造の一例を表す図である。It is a figure showing an example of the directory structure on the archive device in the core side. 競合発生時のマージ処理の概要を示す図である。It is a figure which shows the outline | summary of the merge process at the time of contention generation | occurrence | production. 競合発生時のマージ処理の概要を示す図である。It is a figure which shows the outline | summary of the merge process at the time of contention generation | occurrence | production. 障害情報の電子メールによる通知処理の概要を示す図である。It is a figure which shows the outline | summary of the notification process by the email of failure information.
 以下、図面について、本発明の一実施の形態について詳述する。
 (1)本実施形態の概念
 本実施形態では、共有リソースが格納されるコアと、この共有リソースに対してアクセスする複数のエッジと、を有するコアエッジ構成の相互監視システムにおいて、コアが、共有リソースとして複数のエッジにおける全障害情報を管理するコア側障害情報管理部を有する。一方、複数のエッジは、それぞれ、自らのエッジの性能履歴に基づく自らの障害情報とともに他のエッジの性能履歴に基づく他の障害情報を保持可能な障害情報保持部を有する一方、この障害情報保持部における自らのエッジに関する自らの障害情報をコアに通知し自らの障害情報に基づいて全障害情報を更新し反映する自障害情報報告部を有する。このような構成において複数の各エッジは、さらに、それぞれ、コア側障害情報管理部における全障害情報のうち複数のエッジのうち他のエッジに関する他の障害情報が上記保持済みの他の障害情報よりも新しい場合、上記全障害情報から取得した他の障害情報を用いて障害情報保持部に保持されている他の障害情報を更新する(他障害情報取得部)。上述したコアは、さらに、複数のエッジのうちのある特定のエッジによって全障害情報への更新アクセスを試行した際、複数のエッジのうちの他のエッジによって全障害情報に対して更新アクセスがなされている状態である場合、特定のエッジによる更新アクセスを規制する代わりに、当該特定のエッジによる更新アクセスの要求内容を未反映データとして別途一時的に格納しておき、当該他のエッジによる更新アクセスが完了したことを契機として未反映データに基づいて上記全障害情報を更新する(競合制御部)。以下、その概念を図面を用いつつ具体的に説明する。
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
(1) Concept of the present embodiment In the present embodiment, in a core edge configuration mutual monitoring system having a core in which a shared resource is stored and a plurality of edges that access the shared resource, the core is a shared resource. As a core side fault information management unit for managing all fault information at a plurality of edges. On the other hand, each of the plurality of edges has a failure information holding unit capable of holding other failure information based on the performance history of other edges together with its own failure information based on the performance history of its own edge. It has a self-failure information report unit that notifies the core of its own fault information regarding its own edge and updates and reflects all fault information based on its own fault information. In such a configuration, each of the plurality of edges further includes other fault information related to other edges among the plurality of edges in the total fault information in the core side fault information management unit, based on the other fault information already held. If the failure information is new, the other failure information held in the failure information holding unit is updated using the other failure information obtained from the entire failure information (other failure information obtaining unit). In the above-described core, when an update access to all fault information is attempted by a specific edge of a plurality of edges, the update access is made to all fault information by another edge of the plurality of edges. In this case, instead of restricting update access by a specific edge, the update access request by the specific edge is temporarily stored separately as unreflected data, and the update access by the other edge is stored. The above-mentioned failure information is updated on the basis of the unreflected data in response to the completion of (contention control unit). The concept will be specifically described below with reference to the drawings.
 (1-1)本実施の形態による相互監視システムの構成
 図1は、本実施の形態による相互監視システム1のハードウェア構成の一例を示し、図2は、本実施の形態による相互監視システム1のソフトウェア構成の一例を示す。このソフトウェア構成の一例は、コンピュータに、本実施形態のように、後述する障害通知機能を発揮させ、相互監視システム1として機能させるためのプログラムの一形態を表している。なお、このプログラムは、コンピュータが読み取り可能な非一時的記憶媒体に記憶されている形態であっても良い。以下、相互監視システム1における障害通知機能を発揮するための構成について説明する。
(1-1) Configuration of Mutual Monitoring System According to this Embodiment FIG. 1 shows an example of a hardware configuration of a mutual monitoring system 1 according to this embodiment, and FIG. 2 shows a mutual monitoring system 1 according to this embodiment. An example of the software configuration is shown. An example of this software configuration represents one form of a program for causing a computer to exhibit a failure notification function described later and to function as the mutual monitoring system 1 as in the present embodiment. This program may be stored in a non-transitory storage medium that can be read by a computer. Hereinafter, a configuration for exerting the failure notification function in the mutual monitoring system 1 will be described.
 図1の相互監視システム1は、コア200及び複数のエッジ100A,100B,100C(図示の「エッジA」、「エッジB」及び「エッジC」に相当)がネットワーク301によって接続された構成となっている。なお、複数のエッジ100A,100B,100Cは、各ユーザの事業所などに設置して設けられるコンピュータを有する点において互いにほぼ同様の構成となっている。 The mutual monitoring system 1 of FIG. 1 has a configuration in which a core 200 and a plurality of edges 100A, 100B, and 100C (corresponding to “edge A”, “edge B”, and “edge C” shown in the figure) are connected by a network 301. ing. The plurality of edges 100A, 100B, and 100C have substantially the same configuration in that each computer has a computer that is installed and provided at each user's office.
 コア200は、アーカイブ装置210(以下「HCP」とも呼ぶ)及びRAID装置220を備えている。このアーカイブ装置210は、CPU(Central Processing Unit)211、メモリ212、NIC(Network Interface Card)213、HBA(Host Bus Adoptor)214及び内蔵ディスク装置215を備えている。 The core 200 includes an archive device 210 (hereinafter also referred to as “HCP”) and a RAID device 220. The archive device 210 includes a CPU (Central Processing Unit) 211, a memory 212, a NIC (Network Interface Card) 213, an HBA (Host Bus Adapter) 214, and a built-in disk device 215.
 CPU211は、詳細は後述する図4(C)のinode管理テーブル330が格納されているメモリ212を作業領域とし、カーネル/デバイスドライバ219、ファイルシステムプログラム218、及び、指定されたファイルについてアーカイブ機能を発揮するアーカイブプログラム217を動作させている。NIC213は、ネットワーク301とのインターフェースカードであり、HBA214は、RAID装置220とのインターフェースとして機能する。コア200は、ネットワーク301を経由して複数のエッジ100A,100Bとの間でデータを交換する。 The CPU 211 uses the memory 212 in which an inode management table 330 in FIG. 4C, which will be described in detail later, is stored as a work area, and performs an archive function for the kernel / device driver 219, the file system program 218, and the specified file. An archiving program 217 that operates is operated. The NIC 213 is an interface card with the network 301, and the HBA 214 functions as an interface with the RAID device 220. The core 200 exchanges data with the plurality of edges 100A and 100B via the network 301.
 RAID装置220は、アーカイブ装置210からのデータを記憶したり、その要求に応じて、記憶済みのデータを提供する機能を有する。なお、RAID装置130もRAID装置220と同様の構成である。RAID装置220は、CPU223が、メモリ222を作業領域とし、RTOS(Real Time Operating System)229及びRAID制御プログラム228を動作させている。RAID制御プログラム228は、ディスク装置225,226を用いたRAID制御を行うことにより、データの読み出し及び書き込みの信頼性を高めている。 The RAID device 220 has a function of storing data from the archive device 210 and providing stored data in response to the request. The RAID device 130 has the same configuration as the RAID device 220. In the RAID device 220, the CPU 223 uses the memory 222 as a work area and operates an RTOS (Real Time Operating System) 229 and a RAID control program 228. The RAID control program 228 increases the reliability of data reading and writing by performing RAID control using the disk devices 225 and 226.
 このようなRAID装置220においては、アーカイブ装置210が所望の書き込みコマンドを発行することにより所望のデータを受け取り、例えばRAID制御によってディスク装置225及びディスク装置226の両方を用いてデータの分散記憶管理を行う。当該RAID装置220は、ディスク装置225,226のいずれかに障害が発生した場合、障害が発生していない方のディスク装置のデータを用いて処理を継続する。 In such a RAID device 220, the archive device 210 receives desired data by issuing a desired write command, and performs distributed storage management of data using both the disk device 225 and the disk device 226 by RAID control, for example. Do. When a failure occurs in any of the disk devices 225 and 226, the RAID device 220 continues processing using the data of the disk device in which no failure has occurred.
 RAID装置220は、概略すると、チャネルアダプタ221、メモリ222、CPU223、コントローラ224及びディスク装置225,226を備えている。ディスク装置225,226は複数設けられており、いわゆるRAID(Redundant Arrays Independent Disks)を構成している。 The RAID device 220 generally includes a channel adapter 221, a memory 222, a CPU 223, a controller 224, and disk devices 225 and 226. A plurality of disk devices 225 and 226 are provided, and constitute a so-called RAID (Redundant Array Independent Disks).
 チャネルアダプタ221は、CPU223によってメモリ222の記憶領域を用いて動作する各種プログラムによって、命令受信処理等の他、各種処理を制御する。コントローラ224は、ディスク装置225,226を用いたデータの書き込みや読み出しを制御する。 The channel adapter 221 controls various processes in addition to the command reception process by the various programs that operate using the storage area of the memory 222 by the CPU 223. The controller 224 controls writing and reading of data using the disk devices 225 and 226.
 一方、複数のエッジ100A,100Bは互いにほぼ同様な構成となっている。このため、本実施形態では、代表してエッジ100Aについて説明する。エッジ100Aは、複数のクライアント装置110、ファイルストレージ装置120、RAID装置130、メールサーバ140及び解析サーバ150を有する。これらは、コンピュータである点において共通した構成を有する。なお、RAID装置130は、データを格納したり格納済みのデータを提供する機能について既述のRAID装置220と同様な機能であるため、説明を省略する。 On the other hand, the plurality of edges 100A and 100B have substantially the same configuration. For this reason, in this embodiment, the edge 100A will be described as a representative. The edge 100A includes a plurality of client devices 110, a file storage device 120, a RAID device 130, a mail server 140, and an analysis server 150. These have a common configuration in that they are computers. The RAID device 130 has the same function as the RAID device 220 described above with respect to the function of storing data and providing stored data, and thus the description thereof is omitted.
 ファイルストレージ装置120は、CPU(Central Processing Unit)121、メモリ122、NIC(Network Interface Card)123、内蔵ディスク装置124及びHBA(Host Bus Adoptor)125を備えている。 The file storage device 120 includes a CPU (Central Processing Unit) 121, a memory 122, a NIC (Network Interface Card) 123, a built-in disk device 124 and an HBA (Host Bus Adapter) 125.
 CPU121は、後述する図4(A)に示すinode管理テーブル310が格納されるメモリ122を作業領域とし、ファイル共有システム126、カーネル/デバイスドライバ129、ファイルシステムプログラム127、及び、指定されたファイルを移動させる機能を発揮するデータムーバプログラム128を動作させている。NIC123は、ネットワーク301とのインターフェースカードであり、HBA125は、クライアント装置110などの周辺のコンピュータとのインターフェースとして機能する。エッジ100Aは、ネットワーク301を経由してコア200やエッジ100B,100Cとの間でデータを交換する。 The CPU 121 uses a memory 122 in which an inode management table 310 shown in FIG. 4A described later is stored as a work area, and stores a file sharing system 126, a kernel / device driver 129, a file system program 127, and a specified file. A data mover program 128 that exhibits the function of movement is operated. The NIC 123 is an interface card with the network 301, and the HBA 125 functions as an interface with peripheral computers such as the client device 110. The edge 100A exchanges data with the core 200 and the edges 100B and 100C via the network 301.
 なお、本実施形態では、ファイルストレージ装置120などは、複数のエッジA~Cごとに区別したい場合は、例えばファイルストレージ装置120A,120B,120Cのようにどのエッジに対応しているか分かるように符号を規則的に付して以下説明する。またこれは、例えば、メールサーバ140等の他のコンピュータについても同様である。また、本実施形態では、複数のエッジ100A,100B,100Cの各ファイルストレージ装置120を区別するために、例えば後述する図3、図5,図6に示すように「HDI-A」、「HDI-B」、「HDI-C」のような識別子も用いるものとする。 In the present embodiment, when it is desired to distinguish the file storage device 120 or the like for each of the plurality of edges A to C, for example, the file storage devices 120A, 120B, and 120C are encoded so as to know which edge corresponds to them. Will be described below in regular order. This also applies to other computers such as the mail server 140, for example. In the present embodiment, in order to distinguish the file storage devices 120 of the plurality of edges 100A, 100B, and 100C, for example, as shown in FIGS. 3, 5, and 6 described later, “HDI-A”, “HDI” An identifier such as “-B” or “HDI-C” is also used.
 複数のクライアント装置110、メールサーバ140及び解析サーバ150は、互いに、処理速度が異なるものの基本的にコンピュータをベースとした装置である点において共通するが、特定の機能に特化している点で異なっている。 The plurality of client devices 110, the mail server 140, and the analysis server 150 are common in that they are basically computer-based devices with different processing speeds, but differ in that they are specialized in specific functions. ing.
 複数のクライアント装置110は、それぞれ、CPU111、メモリ112、NIC113及び内蔵ディスク装置114を備え、ファイルストレージ装置120(120A)に対してデータ書き込み要求を行ってデータを書き込んだりデータ読み出し要求を行って格納済みのデータを読み出す。CPU111は、メモリ112を作業領域として、OS(Operating System)119やアプリケーション/Webブラウザ118を動作させ、必要に応じて内蔵ディスク装置114との間でデータを格納させたり格納済データを読み出したりする。NIC113は、ファイルストレージ装置120とのインターフェースとして機能する。 Each of the plurality of client devices 110 includes a CPU 111, a memory 112, a NIC 113, and a built-in disk device 114, and makes a data write request to the file storage device 120 (120 </ b> A) to write data or a data read request to store. Read the completed data. The CPU 111 operates an OS (Operating System) 119 and an application / Web browser 118 using the memory 112 as a work area, and stores data with the built-in disk device 114 and reads stored data as necessary. . The NIC 113 functions as an interface with the file storage apparatus 120.
 メールサーバ140は、それぞれ、CPU141、メモリ142、NIC143及び内蔵ディスク装置144を備えている。CPU141は、メモリ112を作業領域として、電子メールの送受信を中継するメールサーバプログラム148やOS149を動作させ、必要に応じて内蔵ディスク装置144との間で電子メールデータを格納させたり格納済の電子メールデータを読み出したりする。NIC143は、ファイルストレージ装置120や解析サーバ150とのインターフェースとして機能する。 The mail server 140 includes a CPU 141, a memory 142, a NIC 143, and a built-in disk device 144, respectively. The CPU 141 uses the memory 112 as a work area, operates a mail server program 148 that relays transmission / reception of e-mails, and the OS 149, and stores e-mail data with the built-in disk device 144 as necessary. Read mail data. The NIC 143 functions as an interface with the file storage device 120 and the analysis server 150.
 解析サーバ150は、CPU151、メモリ152、NIC153及び内蔵ディスク装置154を備えている。CPU151は、メモリ152を作業領域として、例えばNASヘッドのようなエッジにおいて障害が発生しているか否かを解析する解析用プログラム158やOS159を動作させ、必要に応じて内蔵ディスク装置154との間で解析結果データを格納させたり格納済の解析結果データを読み出したりする。ここでいう解析結果データは、後述する図3に示すような部位別の測定値や障害判定閾値比などを含むモニタリング情報に相当している。NIC153は、メールサーバ140とのインターフェースとして機能する。 The analysis server 150 includes a CPU 151, a memory 152, a NIC 153, and a built-in disk device 154. The CPU 151 uses the memory 152 as a work area and operates an analysis program 158 and an OS 159 for analyzing whether or not a failure occurs at an edge such as a NAS head, and if necessary, between the internal disk device 154 and the internal disk device 154. To store the analysis result data or read the stored analysis result data. The analysis result data here corresponds to monitoring information including a measurement value for each region and a failure determination threshold ratio as shown in FIG. 3 described later. The NIC 153 functions as an interface with the mail server 140.
 (1-2)ステータスファイルのフォーマット及びその内容
 図3は、ステータスファイル300のフォーマット及びその内容の一例を示している。ステータスファイル300は、日時及び各エッジのホスト名(図示の「HDI-A」や「HDI-B」)ごとに、モニタリング情報及びエラー情報を管理している。
(1-2) Status File Format and Its Contents FIG. 3 shows an example of the status file 300 format and its contents. The status file 300 manages monitoring information and error information for each date and time and each edge host name ("HDI-A" and "HDI-B" in the figure).
 モニタリング情報は、部位ごとの測定値や障害判定閾値比を含み、例えば電源電圧やファンの温度を管理している。一方、エラー情報は、障害内容を識別可能なメッセージIDに関する障害内容の重要度及び通知状況(後述する通知状況フラグに対応)を含んでいる。重要度は、例えば「F(Fatal)」>「E(Error)」>「W(Warning)」>「I(Information)」の順に重要なものと設定されている。通知状況フラグは、後述する電子メール通知機能を用いて電子メールによる通知が完了している場合には「済」と更新される一方、そのような通知が完了していない場合には「未」と更新される。 The monitoring information includes measured values for each part and failure determination threshold ratio, and manages, for example, power supply voltage and fan temperature. On the other hand, the error information includes the importance of the failure content and the notification status (corresponding to a notification status flag described later) regarding the message ID that can identify the failure content. The importance is set to be important in the order of, for example, “F (Fatal)”> “E (Error)”> “W (Warning)”> “I (Information)”. The notification status flag is updated to “done” when notification by e-mail using the e-mail notification function described later is completed, while “not yet” when such notification is not completed. And updated.
 (1-3)inode管理テーブルのフォーマット及びその内容
 図4(A)~図4(C)は、それぞれ、ステータスファイルのinode管理テーブル310,320,330のフォーマット及びその内容の一例を示す図である。図4(C)に示すinode管理テーブル330はコア200側のみならず、図4(A)に示すinode管理テーブル310がエッジ100Aのファイルストレージ装置120(120A)に用意されている一方、図4(B)に示すinode管理テーブル320がエッジ100Bのファイルストレージ装置120(120B)などにも用意されている。
(1-3) Format and Contents of Inode Management Table FIGS. 4A to 4C are diagrams showing examples of formats and contents of the inode management tables 310, 320, and 330 of the status file, respectively. is there. While the inode management table 330 shown in FIG. 4C is prepared not only on the core 200 side but also the inode management table 310 shown in FIG. 4A is prepared in the file storage apparatus 120 (120A) at the edge 100A, FIG. The inode management table 320 shown in (B) is also prepared in the file storage apparatus 120 (120B) at the edge 100B.
 具体的には、コア200側においては、Inode管理テーブル330がアーカイブ装置210のメモリ212に記憶されている。一方、エッジ100A側においては、Inode管理テーブル310がファイルストレージ装置120のメモリ122に記憶されており、エッジ100B側においては、Inode管理テーブル320が図示しないファイルストレージ装置(以下「ファイルストレージ装置120B」という)のメモリ(図示せず)に記憶されている。 Specifically, on the core 200 side, an Inode management table 330 is stored in the memory 212 of the archive device 210. On the other hand, on the edge 100A side, the Inode management table 310 is stored in the memory 122 of the file storage device 120, and on the edge 100B side, the Inode management table 320 has a file storage device (not shown) (hereinafter “file storage device 120B”). Stored in a memory (not shown).
 各Inode管理テーブルは、各エッジを識別するために各ノードに付されたInode番号ごとにファイル・パス名、バージョン(図示の「Ver」に相当)、最終更新日時、スタブかフラグ、格納先URL及び3つのブロックアドレスを有する。ファイル・パス名は、ステータスファイルの格納場所を表している。各ブロックアドレスは、ファイルを複数のブロックに分割し、それぞれのブロックの先頭を表す先頭アドレスである。図4(A)及び図4(B)では、それぞれ、スタブ化されておりため、例えばNULLと設定されている。 Each Inode management table includes a file path name, version (corresponding to “Ver” in the figure), last update date / time, stub / flag, storage destination URL for each Inode number assigned to each node to identify each edge. And three block addresses. The file path name represents the storage location of the status file. Each block address is a head address that divides a file into a plurality of blocks and indicates the head of each block. In FIG. 4A and FIG. 4B, since they are stubs, for example, NULL is set.
 図4(A)に示すInode管理テーブル310の格納先URL及び図4(B)に示すInode管理テーブル320の格納先URLは、それぞれ、図4(C)に示すInode管理テーブル330におけるファイル・パス名に対応している。なお、上述したステータスファイルは、図4において「status.txt」というファイル名としてファイルシステム上管理されている。 The storage destination URL of the Inode management table 310 shown in FIG. 4A and the storage destination URL of the Inode management table 320 shown in FIG. 4B are the file path in the Inode management table 330 shown in FIG. Corresponds to the name. Note that the status file described above is managed on the file system as a file name “status.txt” in FIG.
 (1-4)各ノードの情報
 図5は、各ノードの情報を含むノード管理テーブル400のフォーマット及び内容の一例を表している。ノード管理テーブル400は、各エッジのホスト名ごとに、起動時間や転送間隔を含む転送スケジュール、及び、障害通知機能を有する。なお、各ノードにおける障害通知機能は、詳細は後述するが、各ノード(エッジ)に電子メールによる通知機能が有るか無いかを表している。
(1-4) Information on Each Node FIG. 5 shows an example of the format and contents of the node management table 400 including information on each node. The node management table 400 has a transfer schedule including a startup time and a transfer interval for each host name at each edge, and a failure notification function. The failure notification function in each node indicates whether or not each node (edge) has a notification function by e-mail, as will be described in detail later.
 起動時間は、各ノードが起動されてからの経過時間を表しており、転送間隔は、各ノードからステータスファイルをコア200に向けて転送する間隔を表している。 The activation time represents the elapsed time since each node was activated, and the transfer interval represents the interval at which the status file is transferred from each node toward the core 200.
 (1-5)通知先管理テーブルのフォーマット及びその内容
 図6は、通知先管理テーブル500のフォーマット及びその内容の一例を示している。通知先管理テーブル500は、各エッジのホスト名ごとに、連絡先の一例としての電子メールアドレス、及び、連絡先への通知タイミングを管理している。
(1-5) Format and Contents of Notification Destination Management Table FIG. 6 shows an example of the format and contents of the notification destination management table 500. The notification destination management table 500 manages an e-mail address as an example of a contact and a notification timing to the contact for each host name at each edge.
 (2)相互監視システム1における障害通知方法の具体的な手順
 相互監視システム1は以上のような構成であり、次に相互監視システム1における障害通知方法について説明する。
(2) Specific Procedure of Failure Notification Method in Mutual Monitoring System 1 The mutual monitoring system 1 has the above-described configuration. Next, a failure notification method in the mutual monitoring system 1 will be described.
 図7~図9は、それぞれ、相互監視システム1における障害検出方法の一例を表している。図7は、障害監視処理の内容の一例を表し、図8は、図7に示すステータスファイルマージ処理の前半内容の一例を表し、図9は、図8に示すステータスファイルマージ処理の後半内容の一例を表している。 7 to 9 show examples of failure detection methods in the mutual monitoring system 1, respectively. 7 shows an example of the contents of the failure monitoring process, FIG. 8 shows an example of the first half contents of the status file merge process shown in FIG. 7, and FIG. 9 shows the latter half contents of the status file merge process shown in FIG. An example is shown.
 (2-1)障害監視処理
 まず、各エッジでは(ここでは、代表として主にエッジ100Aを例示する)、解析サーバ150が自らのノードに障害が発生しているか否かを判定する(ステップS1)。自らのノードに障害が発生していない場合、解析サーバ150は、例えば定期的に或いは手動での転送を実行したか否かを判定する(ステップS2)。転送を実行していない場合には、再度ステップS1が実行される一方、転動を実行している場合には、後述するステータスマージ処理を実行する(ステップS100)。
(2-1) Failure Monitoring Process First, at each edge (here, the edge 100A is mainly exemplified as a representative), the analysis server 150 determines whether or not a failure has occurred in its own node (step S1). ). If no failure has occurred in its own node, the analysis server 150 determines, for example, whether the transfer has been executed periodically or manually (step S2). When the transfer is not executed, step S1 is executed again, while when the rolling is executed, a status merge process described later is executed (step S100).
 自らのノードに障害が発生している場合、解析サーバ150は、電子メール通知機能がONであるか否かを判定する(ステップS3)。電子メール通知機能がONである場合、メールサーバ140が、通知先管理テーブル500に登録済みの通知先に電子メール通知を実行する(ステップS4)。 If a failure has occurred in its own node, the analysis server 150 determines whether or not the e-mail notification function is ON (step S3). If the e-mail notification function is ON, the mail server 140 executes e-mail notification to the notification destination registered in the notification destination management table 500 (step S4).
 次に解析サーバ150は、ステータスファイルを更新する(ステップS5)。なお、電子メール通知を実行した場合は、通知状況フラグを「未」から「済」に更新する。次に解析サーバ150は、ステータスファイルマージ処理を実行する(ステップS100)。 Next, the analysis server 150 updates the status file (step S5). When e-mail notification is executed, the notification status flag is updated from “not yet” to “done”. Next, the analysis server 150 executes a status file merge process (step S100).
 (2-2)ステータスファイルマージ処理
 図8は、各エッジにおいて実行される上記ステータスファイルマージ処理の一例を示している。本実施形態では、このステータスファイルマージ処理は、例えば定期的に或いは手動での転送を実行したことを契機として、又は、障害が発生したことを契機として実行される。
(2-2) Status File Merge Process FIG. 8 shows an example of the status file merge process executed at each edge. In the present embodiment, this status file merging process is executed, for example, periodically or when manual transfer is executed, or when a failure occurs.
 エッジ100Aでは、ファイルストレージ装置120A(HDI-A)がコア200からステータスファイルと未反映データを取得する(ステップS101)。次にファイルストレージ装置120A(HDI-A)は、コア200から取得したステータスファイルに未反映データをマージする(ステップS102)。併せて、ファイルストレージ装置120A(HDI-A)は、反映されていないバージョンの内容を追記する。 At the edge 100A, the file storage device 120A (HDI-A) acquires a status file and unreflected data from the core 200 (step S101). Next, the file storage device 120A (HDI-A) merges the unreflected data into the status file acquired from the core 200 (step S102). At the same time, the file storage apparatus 120A (HDI-A) additionally writes the contents of the version that is not reflected.
 ファイルストレージ装置120は、コア200から取得したステータスファイルに自らのノードの障害情報(ステータスファイルに相当)をマージし(ステップS103)、未通知の障害情報が存在するか否かを判定する(ステップS104)。 The file storage apparatus 120 merges the failure information (corresponding to the status file) of its own node into the status file acquired from the core 200 (step S103), and determines whether or not unreported failure information exists (step S103). S104).
 未通知の障害情報が存在しない場合、ファイルストレージ装置120は、通知先管理テーブル500から通知先の一例としての電子メールアドレスを取得する(ステップS105)。次にファイルストレージ装置120は、未通知の障害情報に関して電子メール通知を行い、ステータスファイルの通知状況フラグを「済」へ変更する(ステップS106)。 When there is no unreported failure information, the file storage apparatus 120 acquires an e-mail address as an example of a notification destination from the notification destination management table 500 (step S105). Next, the file storage device 120 sends an e-mail notification regarding unreported failure information, and changes the notification status flag of the status file to “completed” (step S106).
 次にファイルストレージ装置120は、解析サーバ150へ各エッジのモニタリング情報を送信する(ステップS107)。なおモニタリング情報には、例えば部位別の測定値/障害判定閾値比が含まれている。次にファイルストレージ装置120は、上述のようにマージが完了したため、コア200から取得済みの未反映データを削除する(ステップS108)。 Next, the file storage device 120 transmits monitoring information of each edge to the analysis server 150 (step S107). The monitoring information includes, for example, a site-specific measurement value / failure determination threshold ratio. Next, since the merging has been completed as described above, the file storage device 120 deletes the unreflected data acquired from the core 200 (step S108).
 次にファイルストレージ装置120は、コア200からステータスファイルのバージョン情報を取得し(図9のステップS109)、コア200のステータスファイルSF(を管理するInode管理テーブル330)が更新されているか否かを判定する(ステップS110)。 Next, the file storage apparatus 120 acquires the version information of the status file from the core 200 (step S109 in FIG. 9), and determines whether or not the status file SF of the core 200 (the Inode management table 330 for managing it) has been updated. Determination is made (step S110).
 コア200のステータスファイル(全障害情報)が更新されていない場合、ファイルストレージ装置120は、コア200から取得して自らのノードの障害情報をマージしたステータスファイルのメタデータなどのバージョンをインクリメントする(ステップS111)。次にファイルストレージ装置120は、コア200におけるステータスファイルの格納ディレクトリに、上記更新済みのステータスファイルを転送する(ステップS112)。ファイルストレージ装置120は、元々自らのノードで保持していたステータスファイルを削除し(ステップS113)、呼び出し元(図7のステップS100)に戻って処理を続ける(図7のフローチャートの場合はその後処理を終了する)。 When the status file (all fault information) of the core 200 has not been updated, the file storage device 120 increments the version of the metadata of the status file obtained from the core 200 and merged with the fault information of its own node ( Step S111). Next, the file storage apparatus 120 transfers the updated status file to the status file storage directory in the core 200 (step S112). The file storage device 120 deletes the status file originally held in its own node (step S113), returns to the caller (step S100 in FIG. 7), and continues the processing (in the case of the flowchart in FIG. 7, the subsequent processing is performed). Exit).
 一方、コア200のステータスファイルSFが更新されている場合、ファイルストレージ装置120は、元々自らのノードで保持していたステータスファイルをconflictディレクトリ(未反映データ格納用ディレクトリ)MDに移行する(ステップS114)。次にファイルストレージ装置120は、そのconflictディレクトリ内のステータスファイルをコア200において未反映データ格納用ディレクトリMDへアップロードし(ステップS115)、呼び出し元(図7のステップS100)に戻って処理を続ける(図7のフローチャートの場合はその後処理を終了する)。 On the other hand, if the status file SF of the core 200 has been updated, the file storage apparatus 120 moves the status file originally held in its own node to the conflict directory (unreflected data storage directory) MD (step S114). ). Next, the file storage device 120 uploads the status file in the conflict directory to the unreflected data storage directory MD in the core 200 (step S115), and returns to the caller (step S100 in FIG. 7) to continue the process ( In the case of the flowchart of FIG. 7, the processing is thereafter terminated).
 (3)ステータスファイルの格納先
 (3-1)コア側のディレクトリ構成
 図10は、コア200側におけるアーカイブ装置210上のディレクトリ構造の一例を表している。ある上位ディレクトリの下位ディレクトリは、当該上位ディレクトリの下部から当該下位ディレクトリの上部に延びる線によって上下関係が表されている。
(3) Status File Storage Location (3-1) Core-side Directory Configuration FIG. 10 shows an example of a directory structure on the archive device 210 on the core 200 side. A subordinate directory of a certain superordinate directory is represented in a vertical relationship by a line extending from the bottom of the superordinate directory to the top of the subordinate directory.
 アーカイブ装置210(HCP)は、そのファイルシステム上、図10に示すように、例えば「/」と図示されたルートディレクトリRDの下層ディレクトリとして、例えば、「coreH」というディレクトリ名で、ステータスファイルの格納ディレクトリ(以下「ステータスファイル格納ディレクトリ」という)SDと、例えば「confilictH」というディレクトリ名で、既述の未反映データを格納するためのディレクトリ(以下「未反映データ格納用ディレクトリ」という)MDとを有する。 As shown in FIG. 10, the archive device 210 (HCP) stores a status file with a directory name “coreH”, for example, as a lower directory of the root directory RD shown as “/”. A directory (hereinafter referred to as “status file storage directory”) SD and a directory (hereinafter referred to as “non-reflected data storage directory”) MD for storing the above-described unreflected data with a directory name “conflictH”, for example. Have.
 図示の例では、ステータスファイル格納ディレクトリSDに「0」という名称のステータスファイルSFが格納されている。 In the illustrated example, a status file SF named “0” is stored in the status file storage directory SD.
 (3-2)競合発生時のマージ処理
 図11及び図12は、それぞれ、競合発生時のマージ処理の概要の一例を示している。なお、図12は、図11に示すフローチャートの続きを表している。なお、両図において付した手順(1)~手順(5)は各図における処理手順の一例を表している。図11に示すように、コア200には、そのステータスファイル格納ディレクトリSDに名称「0」のステータスファイルSFが格納されている。
(3-2) Merge Processing When Conflict Occurs FIGS. 11 and 12 each show an example of an outline of merge processing when a conflict occurs. FIG. 12 shows the continuation of the flowchart shown in FIG. Note that the procedures (1) to (5) given in both figures represent an example of the processing procedure in each figure. As shown in FIG. 11, the core 200 stores a status file SF having the name “0” in the status file storage directory SD.
 図11の手順(1)では、コア200から名称「0」のステータスファイルSFがファイルストレージ装置120A(HDI-A)に、当該名称「0」のステータスファイルがファイルストレージ装置120Aにダウンロードされる。図11の手順(2)では、併せて、ほぼ同時期に、コア200から当該「0」という名称のステータスファイルがファイルストレージ装置120Bにダウンロードされる。 11, the status file SF with the name “0” is downloaded from the core 200 to the file storage device 120A (HDI-A), and the status file with the name “0” is downloaded to the file storage device 120A. In the procedure (2) of FIG. 11, at the same time, the status file named “0” is downloaded from the core 200 to the file storage device 120B.
 一方、ファイルストレージ装置120Aは、図11の手順(3)に示すように、自らのノードに関する障害情報を含めた名称「A1」のステータスファイルSFをコア200のステータスファイル格納ディレクトリSDにアップロードする。 On the other hand, the file storage device 120A uploads the status file SF with the name “A1” including the failure information regarding its own node to the status file storage directory SD of the core 200, as shown in the procedure (3) of FIG.
 図11の手順(4)に示すように、コア200では、名称「0」のステータスファイルSFが、そのアップロードされた名称「A1」のステータスファイルSFで書き替えられる。 As shown in step (4) of FIG. 11, in the core 200, the status file SF with the name “0” is rewritten with the uploaded status file SF with the name “A1”.
 次にファイルストレージ装置120B(HDI-B)は、図11の手順(5)に示すように、自らの障害情報を含めた名称「B1」のステータスファイルSFをコア200のステータスファイル格納ディレクトリSDにアップロードしようとする。 Next, the file storage apparatus 120B (HDI-B) moves the status file SF with the name “B1” including its own failure information to the status file storage directory SD of the core 200, as shown in step (5) of FIG. Try to upload.
 (3-2-1)競合確認
 次にファイルストレージ装置120B(HDI-B)は、図11の手順(5)に示すように、ステータスファイル格納ディレクトリSDに存在するステータスファイルSFが他のエッジによって更新され、バージョンが「0」以外となっているか確認する。これは、このファイルストレージ装置120B(HDI-B)としては、既に説明したように、コア200のステータスファイル格納ディレクトリSDにはバージョン「0」のステータスファイルSFが存在しているとの認識であるため、バージョンが「0」以外のステータスファイルSFが存在している場合には他のエッジによる更新と競合している可能性があるかどうかを確認しているのである。
(3-2-1) Conflict Confirmation Next, the file storage apparatus 120B (HDI-B) determines that the status file SF existing in the status file storage directory SD has been changed by another edge as shown in the procedure (5) of FIG. It is updated and it is confirmed whether the version is other than “0”. This is recognition that the status file SF of version “0” exists in the status file storage directory SD of the core 200 as described above for the file storage device 120B (HDI-B). Therefore, when there is a status file SF whose version is other than “0”, it is confirmed whether or not there is a possibility of conflict with the update by other edges.
 ファイルストレージ装置120B(HDI-B)は、コア200のステータスファイル格納ディレクトリSDに存在するステータスファイルSFのバージョンが「0」以外であることに基づいて競合を検知した場合、上述のようにアップロードを実行しようとしたステータスファイルSF(バージョン「B1」)を、予定していたステータスファイル格納ディレクトリSDの代わりに、図11の手順(6)に示すように、未反映データ格納用ディレクトリMDにアップロードする。 When the file storage device 120B (HDI-B) detects a conflict based on the fact that the version of the status file SF existing in the status file storage directory SD of the core 200 is other than “0”, the file storage device 120B (HDI-B) uploads as described above. The status file SF (version “B1”) to be executed is uploaded to the unreflected data storage directory MD as shown in step (6) of FIG. 11 instead of the planned status file storage directory SD. .
 これにより、本実施形態では、ステータスファイルSFに対する更新アクセスの要求があった場合、更新アクセスの要求を受け付けない代わりに、未反映データ格納用ディレクトリMDを用いて一時的に受け付けることにより、複数のエッジ100A,100BなどによるステータスファイルSFに対する更新アクセスの要求に関して競合制御が可能となる。 As a result, in the present embodiment, when there is an update access request for the status file SF, instead of not accepting the update access request, by using the unreflected data storage directory MD temporarily, It is possible to control contention with respect to a request for update access to the status file SF by the edges 100A and 100B.
 一方、図12の手順(1)では、上述した競合を原因として、ステータスファイルSFを反映できなかったファイルストレージ装置120Cが、図12の手順(1)に示すように、上述した競合が解消しバージョンが「A1」に更新されたステータスファイルSFをコア200からダウンロードする。 On the other hand, in the procedure (1) of FIG. 12, due to the above-described conflict, the file storage device 120C that could not reflect the status file SF resolves the above-described conflict as shown in the procedure (1) of FIG. The status file SF whose version is updated to “A1” is downloaded from the core 200.
 ファイルストレージ装置120Cは、先ほど未反映データ格納用ディレクトリMDに格納し保留としたステータスファイルSF(バージョン「B1])を、図12の手順(2)に示すように、コア200の未反映データ格納用ディレクトリMDからダウンロードする。 The file storage device 120C stores the status file SF (version “B1]) stored in the non-reflected data storage directory MD and put on hold earlier as shown in step (2) of FIG. Download from the directory MD.
 ファイルストレージ装置120Cでは、ダウンロード済みの2つのステータスファイルSF(バージョン「A1」及びバージョン「B1」)、並びに、ファイルストレージ装置120C自らにおいて更新したステータスファイルSF(例えばバージョン「C1」とする)に基づいて、図12の手順(3)に示すようにこれらをマージして、例えばバージョン「ABC」のステータスファイルSFを生成し、これをコア200のステータスファイル格納ディレクトリSDにアップロードすることにより、コア200のステータスファイル格納ディレクトリSDのステータスファイルSF(バージョン「A1」)を更新する。 In the file storage apparatus 120C, based on the two downloaded status files SF (version “A1” and version “B1”) and the status file SF updated by the file storage apparatus 120C itself (for example, version “C1”). Then, as shown in the procedure (3) of FIG. 12, these are merged, for example, a status file SF of version “ABC” is generated, and this is uploaded to the status file storage directory SD of the core 200. The status file SF (version “A1”) in the status file storage directory SD is updated.
 このようにすると、コア200側では、ステータスファイル格納ディレクトリSDに存在するステータスファイルSFについて競合が解消したことを契機として、未反映データ格納用ディレクトリMDに存在するステータスファイルSF(バージョン「B1」)が、ステータスファイル格納ディレクトリSDに存在するステータスファイルSFに上書きされて反映されるようになる。 As a result, on the core 200 side, the status file SF (version “B1”) existing in the unreflected data storage directory MD is triggered by the fact that the conflict has been resolved for the status file SF existing in the status file storage directory SD. Is overwritten and reflected in the status file SF existing in the status file storage directory SD.
 以上のようにすると、まず、各エッジによる更新アクセスが競合していない場合には、複数のエッジ100A,100Bがコアを通じて互いに複数のエッジ100A,100Bに関する全障害情報を同期して共有できるようになる一方、各エッジによる更新アクセスが競合した場合でも、その競合した更新アクセスが完了すると即座に、さらに特定のエッジによって更新された全障害情報が遅滞なく複数のエッジ100A,100B間で確実に通知されるとともに把握されるようになる。 As described above, first, when update access by each edge is not competing, the plurality of edges 100A and 100B can share all the fault information regarding the plurality of edges 100A and 100B in synchronization with each other through the core. On the other hand, even if update access by each edge competes, as soon as the conflicting update access is completed, all fault information updated by a specific edge is reliably notified between the plurality of edges 100A and 100B without delay. Will be grasped.
 以上のように本実施形態では、コア200においてアーカイブ装置210のCPU211(競合制御部)が、複数のエッジ100A,100B,100Cのいずかのエッジからステータスファイル格納ディレクトリSD(全障害情報格納ディレクトリ)に格納済みの全ステータスファイルが新たなステータスファイルで更新アクセスされる際、当該格納済みのステータスファイルSFが他のエッジから更新アクセスされている場合、当該新たなステータスファイルSFを未反映データ格納用ディレクトリMDに一時的に格納している。さらに、アーカイブ装置210のCPU211は、当該新たなステータスファイルを用いて当該格納済みのステータスファイルSFの更新アクセスが終了したことを契機として、未反映データ格納用ディレクトリMDに一時的に格納された当該新たなステータスファイルSFを用いて上記更新アクセスが終了済みのステータスファイルを更新している(データ更新部)。 As described above, in the present embodiment, the CPU 211 (contention control unit) of the archive device 210 in the core 200 starts the status file storage directory SD (all fault information storage directory) from one of the edges 100A, 100B, 100C. ) When all the status files already stored in (1) are updated and accessed by a new status file, if the stored status file SF is updated and accessed from another edge, the new status file SF is stored as unreflected data. Are temporarily stored in the directory MD. Further, the CPU 211 of the archive device 210 uses the new status file to temporarily store the stored status file SF in the unreflected data storage directory MD when the update access of the stored status file SF is completed. The status file for which the update access has been completed is updated using a new status file SF (data update unit).
 このようにすると、複数のエッジ100A,100B,100Cが互いにステータスファイルSFの内容を持ち合うことで、複数のエッジ100A,100B,100Cのうちの特定のエッジにおいて生じた障害が他のエッジによっても把握することができる。このため、複数のエッジ100A,100B,100Cやコア200に各々管理者をおく必要がなくなることによりコストを抑制しつつ、複数のエッジ100A,100B,100C間やそれらとコア200との間における障害通知機能をより確実にすることができる。 In this way, the plurality of edges 100A, 100B, and 100C have the contents of the status file SF with each other, so that a failure that occurs at a specific edge among the plurality of edges 100A, 100B, and 100C can be caused by other edges. I can grasp it. For this reason, it is not necessary to place an administrator in each of the plurality of edges 100A, 100B, 100C and the core 200, and the failure between the plurality of edges 100A, 100B, 100C and between them and the core 200 is suppressed while reducing costs. The notification function can be made more reliable.
 しかも、コア200にステータスファイル格納ディレクトリSDを設けることによって、複数のエッジ100A,100B,100Cから短時間の間にコアの全障害情報の更新アクセスの要求があった場合でも、更新後の全障害情報に確実に不整合が生じないようにすることができる。これにより、多数のエッジを設けた場合でも、全てのエッジ100A,100B,100C間において確実に障害通知機能を稼働させることができることから、最新の障害情報を全ての複数のエッジ100A,100B,100Cにおいて迅速に共有することができる。 In addition, by providing the status file storage directory SD in the core 200, even if there is a request for update access of all the fault information of the core from a plurality of edges 100A, 100B, 100C in a short time, all faults after the update It is possible to ensure that there is no inconsistency in information. As a result, even when a large number of edges are provided, the failure notification function can be reliably operated between all the edges 100A, 100B, and 100C. Therefore, the latest failure information is stored in all the plurality of edges 100A, 100B, and 100C. Can be shared quickly.
 (3-3)障害情報の電子メール処理の概要
 図13は、障害情報の電子メール通知処理の概要の一例を示している。アーカイブ装置210(本実施形態では「HCP」とも省略する)は、そのファイルシステム上、図示のように、例えば「/」と図示されたルートディレクトリRDの下層ディレクトリとして、例えば、「dir1」というディレクトリ名で、ステータスファイルの格納ディレクトリ(以下「ステータスファイル格納ディレクトリ」という)SDと、例えば「dir2」というディレクトリ名で、既述の未反映データを格納するためのディレクトリ(以下「未反映データ格納用ディレクトリ」という)MDとを有する。この電子メール通知処理では、主としてステータスファイル格納ディレクトリSDを用いて説明する。
(3-3) Overview of Failure Information E-mail Processing FIG. 13 shows an example of an overview of failure information e-mail notification processing. The archive device 210 (also abbreviated as “HCP” in the present embodiment) has, for example, a directory called “dir1” as a lower layer directory of the root directory RD shown as “/” on the file system as shown in the figure. A directory for storing the above-mentioned unreflected data with a directory name (hereinafter “status file storage directory”) SD and a directory name “dir2”, for example, Directory)). This e-mail notification process will be described mainly using the status file storage directory SD.
 エッジ100Aのメールサーバ140A(図示の「メールサーバA」に相当)が、図13の手順(1)に示すように電子メールを用いた障害通知ができない場合、その代わりに、エッジ100Aのファイルストレージ装置120A(図示の「HDI-A」に相当)が、図13の手順(2)に示すように、電子メールを用いた障害通知ができない旨を表すメール未通知情報をコア200のアーカイブ装置210のステータスファイル格納ディレクトリSDにアップロードする。なお、上述のように電子メールを用いた障害通知ができない場合とは、例えばエッジ100Aにメールサーバ140Aが設けられていない場合、又は、メールサーバ140A自体に電子メールの送信機能に障害が発生している場合などを想定している。 When the mail server 140A of the edge 100A (corresponding to the “mail server A” shown in the figure) cannot perform failure notification using e-mail as shown in the procedure (1) of FIG. 13, the file storage of the edge 100A is used instead. As shown in step (2) of FIG. 13, the device 120A (corresponding to “HDI-A” in the figure) indicates that the mail unreported information indicating that failure notification using electronic mail cannot be performed is the archive device 210 of the core 200. Is uploaded to the status file storage directory SD. Note that failure notification using e-mail cannot be performed as described above, for example, when the mail server 140A is not provided in the edge 100A, or a failure occurs in the e-mail transmission function of the mail server 140A itself. Assumes that.
 一方、エッジ100Bでは、ファイルストレージ装置120B(図示の「HDI-B」に相当)が、図13の手順(3)に示すように、上記ステータスファイル格納ディレクトリSDのメール未通知情報をダウンロードし、代わりに、ファイルストレージ装置120A(HDI-A)の特定管理者(管理端末)に電子メールを用いて、そのメール未通知情報に基づく内容として、エッジ100Aのメールサーバ140B(図示の「メールサーバ-B」に相当)から電子メールを用いて障害通知ができない旨を通知する。 On the other hand, at the edge 100B, the file storage device 120B (corresponding to “HDI-B” shown in the figure) downloads the mail non-notification information in the status file storage directory SD as shown in the procedure (3) in FIG. Instead, an e-mail is used for the specific manager (management terminal) of the file storage apparatus 120A (HDI-A), and the contents based on the unreported mail information are used as the contents of the mail server 140B (the “mail server- B ”)) that the failure notification is not possible using electronic mail.
 このようにすると、エッジ100Aにおいて障害が発生しているもののそのメールサーバ140A(メールサーバ-A」に相当)にまで障害が及んでいる場合でも、図示しない管理端末を操作する特定管理者には、他のエッジ100Bを経由して、エッジ100Aに障害が発生していることがより確実に報告されることになる。このため、エッジ100Aにその専任管理者が存在しない場合であっても、上述した特定管理者は、エッジ100Aにおいて障害が発生していることが把握可能となることから、エッジ100Aに専任の管理者をおく必要がなくなり、エッジ100Aの維持費用を抑制することができる。 In this way, even if a failure has occurred at the edge 100A but the failure has reached the mail server 140A (corresponding to the mail server-A), the specific administrator who operates the management terminal (not shown) Thus, it is more reliably reported that a failure has occurred in the edge 100A via the other edge 100B. For this reason, even if the dedicated manager does not exist in the edge 100A, the specific manager described above can grasp that a failure has occurred in the edge 100A. It is not necessary to place a person, and the maintenance cost of the edge 100A can be suppressed.
 さらに本実施形態では、複数のエッジ100A,100B,100Cは、それぞれ、コア200において複数のエッジ100A,100B,100Cのうちの他のエッジ(例えばエッジ100A)に関するステータスファイルのバージョン(図4の最終更新日時欄)が所定期間に亘って更新されていないこと、即ち、例えば所定の閾値バージョンよりも古いことを基準として、他のエッジ100Aとコア200との間において通信障害が生じていると判定するようにしても良い。 Further, in the present embodiment, the plurality of edges 100A, 100B, and 100C are respectively the status file versions (for example, the edge 100A) of the plurality of edges 100A, 100B, and 100C in the core 200 (the last in FIG. 4). It is determined that a communication failure has occurred between the other edge 100A and the core 200 based on the fact that the update date / time column) has not been updated for a predetermined period, that is, for example, is older than a predetermined threshold version. You may make it do.
 このようにすると、エッジ100Aのファイルストレージ装置120Aが、図13に示す例のように、上記メール未通知情報すらもコア200に対してアップロードできないほど大きな障害が発生した場合であっても、他のエッジ100Bが、エッジ100Aから距離的に離れていても、そのような大きな障害がエッジ100Aに発生していることを把握できるとともに、例えば上記特定管理者に報告することもできるようになる。 In this case, even when the file storage apparatus 120A of the edge 100A has a large failure that the above-mentioned unreported mail information cannot be uploaded to the core 200 as shown in the example of FIG. Even if the edge 100B is far away from the edge 100A, it can be understood that such a large failure has occurred in the edge 100A, and can be reported to the specific manager, for example.
 (4)その他の実施形態
 上記実施形態は、本発明を説明するための例示であり、本発明をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その趣旨を逸脱しない限り、様々な形態で実施することができる。例えば、上記実施形態では、各種プログラムの処理をシーケンシャルに説明したが、特にこれにこだわるものではない。従って、処理結果に矛盾が生じない限り、処理の順序を入れ替え又は並行動作するように構成しても良い。
(4) Other Embodiments The above embodiment is an example for explaining the present invention, and is not intended to limit the present invention only to these embodiments. The present invention can be implemented in various forms without departing from the spirit of the present invention. For example, in the above-described embodiment, the processing of various programs is described sequentially, but this is not particularly concerned. Therefore, as long as there is no contradiction in the processing result, the processing order may be changed or the operation may be performed in parallel.
 本発明は、コアエッジ構成の相互監視システム、相互監視システムにおける障害通知方法、及び、障害通知機能を発揮させるプログラムが記録された非一時的記憶媒体に広く適用することができる。 The present invention can be widely applied to a mutual monitoring system having a core edge configuration, a failure notification method in the mutual monitoring system, and a non-temporary storage medium in which a program for performing a failure notification function is recorded.
 100,100A,100B,100C……エッジ、120,120A,120B……ファイルストレージ装置、140A,140B……メールサーバ、200……コア。 100, 100A, 100B, 100C ... Edge, 120, 120A, 120B ... File storage device, 140A, 140B ... Mail server, 200 ... Core.

Claims (9)

  1.  共有リソースが格納されるコアと、前記共有リソースに対してアクセスする複数のエッジと、を有するコアエッジ構成の相互監視システムにおいて、
     前記コアは、
     前記共有リソースとして前記複数のエッジにおける全障害情報を管理するコア側障害情報管理部を備え、
     前記複数のエッジは、それぞれ、
     自らのエッジの性能履歴に基づく自らの障害情報とともに他のエッジの性能履歴に基づく他の障害情報を保持可能な障害情報保持部と、
     前記障害情報保持部における自らのエッジに関する前記自らの障害情報を前記コアに通知し、前記自らの障害情報に基づいて前記全障害情報を更新し反映する自障害情報報告部と、
     前記コア側障害情報管理部における前記全障害情報のうち他のエッジに関する他の障害情報が前記保持済みの他の障害情報よりも新しい場合、前記全障害情報から取得した他の障害情報を用いて前記障害情報保持部に保持されている他の障害情報を更新する他障害情報取得部と、
     を有し、
     前記コアは、さらに、
     前記複数のエッジのうちの特定のエッジによって前記全障害情報への更新アクセスを試行した際、前記複数のエッジのうちの他のエッジによって前記全障害情報に対して更新アクセスがなされている状態である場合、前記特定のエッジによる更新アクセスを規制する代わりに、前記特定のエッジによる更新アクセスの要求内容を未反映データとして別途一時的に格納しておき、前記他のエッジによる更新アクセスが完了したことを契機として前記未反映データに基づいて前記全障害情報を更新する競合制御部
     を有することを特徴とする相互監視システム。
    In a core edge configuration mutual monitoring system having a core in which a shared resource is stored and a plurality of edges that access the shared resource,
    The core is
    A core side fault information management unit for managing all fault information at the plurality of edges as the shared resource;
    The plurality of edges are respectively
    A fault information holding unit capable of holding other fault information based on the performance history of other edges together with own fault information based on the performance history of the own edge;
    A self-failure information reporting unit for notifying the core of the fault information relating to the edge of the fault information holding unit in the core, and updating and reflecting the total fault information based on the fault information;
    When other fault information related to other edges among the total fault information in the core side fault information management unit is newer than the other fault information already held, the other fault information acquired from the total fault information is used. Other fault information acquisition unit for updating other fault information held in the fault information holding unit,
    Have
    The core further includes
    When update access to the entire failure information is attempted by a specific edge of the plurality of edges, update access is made to the entire failure information by another edge of the plurality of edges. In some cases, instead of restricting update access by the specific edge, the update access request content by the specific edge is temporarily stored separately as unreflected data, and the update access by the other edge is completed. A mutual monitoring system characterized by having a contention control unit that updates all the failure information based on the unreflected data.
  2.  前記コアは、
     前記全障害情報が格納される全障害情報格納ディレクトリと、
     前記未反映データが一時的に格納される未反映データ格納用ディレクトリと、
     を含み、
     前記競合制御部は、
     前記複数のエッジのいずかのエッジから前記全障害情報格納ディレクトリに格納済みの全障害情報が新たな障害情報で更新アクセスされる際、前記格納済みの全障害情報が他のエッジから更新アクセスされている場合、前記新たな障害情報を前記未反映データ格納用ディレクトリに一時的に格納する未反映データ退避部と、
     前記新たな障害情報を用いて前記格納済みの全障害情報の更新アクセスが終了したことを契機として、前記未反映データ格納用ディレクトリに一時的に格納された前記新たな障害情報を用いて前記更新アクセスが終了済みの全障害情報を更新するデータ更新部と、
     を有することを特徴とする請求項1に記載の相互監視システム。
    The core is
    A total failure information storage directory in which the total failure information is stored;
    A directory for storing unreflected data in which the unreflected data is temporarily stored;
    Including
    The contention control unit
    When all fault information stored in the all fault information storage directory is updated and accessed with new fault information from one of the plurality of edges, the stored all fault information is updated and accessed from another edge. The unreflected data saving unit for temporarily storing the new failure information in the unreflected data storage directory;
    The update using the new failure information temporarily stored in the unreflected data storage directory when the update access of all stored failure information using the new failure information has ended. A data update unit that updates all fault information that has been accessed;
    The mutual monitoring system according to claim 1, comprising:
  3.  前記複数のエッジは、それぞれ、
     前記他障害情報取得部によって前記コアから取得した他の障害情報に基づいて前記複数のエッジのいずれかのエッジに障害が発生していると判定した場合、前記複数のエッジを監視する管理端末に対して代わりに通知する障害代理報告部
     を有する請求項1に記載の相互監視システム。
    The plurality of edges are respectively
    When it is determined that a failure has occurred in any one of the plurality of edges based on other failure information acquired from the core by the other failure information acquisition unit, the management terminal that monitors the plurality of edges The mutual monitoring system according to claim 1, further comprising a failure proxy reporting unit that notifies the user instead.
  4.  前記複数のエッジは、それぞれ、
     前記コアにおいて前記複数のエッジのうちの他のエッジに関する他障害情報が所定期間に亘って更新されていないことを基に、前記他のエッジと前記コアとの間において通信障害が生じていると判定する請求項1に記載の相互監視システム。
    The plurality of edges are respectively
    A communication failure occurs between the other edge and the core based on the fact that the other failure information related to the other edge of the plurality of edges is not updated over a predetermined period in the core. The mutual monitoring system according to claim 1 for determining.
  5.  共有リソースが格納されるコアと、前記共有リソースに対してアクセスする複数のエッジと、を有するコアエッジ構成の相互監視システムにおける障害通知方法において、
     前記複数のエッジでは、それぞれ、
     自障害情報報告部に、自らのエッジの性能履歴に基づく自らの障害情報とともに他のエッジの性能履歴に基づく他の障害情報を保持可能な障害情報保持部における自らのエッジに関する前記自らの障害情報を前記コアに通知させ、前記自らの障害情報に基づいて前記コアのコア側障害情報管理部によって管理されている前記複数のエッジにおける全障害情報を更新し反映させる自障害情報報告ステップと、
     他障害情報取得部に、前記共有リソースとして前記全障害情報のうち他のエッジに関する他の障害情報が前記保持済みの他の障害情報よりも新しい場合、前記全障害情報から取得した他の障害情報を用いて前記障害情報保持部に保持されている他の障害情報を更新させる他障害情報取得ステップと、
     を実行させ、
     前記コアでは、
     競合制御部に、前記複数のエッジのうちの特定のエッジによって前記全障害情報への更新アクセスを試行させた際、前記複数のエッジのうちの他のエッジによって前記全障害情報に対して更新アクセスがなされている状態である場合、前記特定のエッジによる更新アクセスを規制させる代わりに、前記特定のエッジによる更新アクセスの要求内容を未反映データとして別途一時的に格納させておき、前記他のエッジによる更新アクセスが完了したことを契機として前記未反映データに基づいて前記全障害情報を更新させる競合制御ステップ
     を実行させることを特徴とする相互監視システムにおける障害通知方法。
    In a failure notification method in a core edge configuration mutual monitoring system having a core in which a shared resource is stored and a plurality of edges that access the shared resource,
    In each of the plurality of edges,
    The own failure information reporting unit can store the own failure information based on the performance history of the edge and the failure information holding unit capable of holding other failure information based on the performance history of the other edge. A self-failure information reporting step for updating and reflecting all the fault information at the plurality of edges managed by the core-side fault information management unit of the core based on the fault information of the core,
    In the other failure information acquisition unit, when other failure information related to other edges among the all failure information as the shared resource is newer than the other held failure information, the other failure information acquired from the all failure information Other fault information acquisition step for updating other fault information held in the fault information holding unit using
    And execute
    In the core,
    When causing the contention control unit to attempt update access to the entire failure information by a specific edge of the plurality of edges, update access to the entire failure information is performed by another edge of the plurality of edges. In this state, instead of restricting update access by the specific edge, the request content of the update access by the specific edge is temporarily stored as unreflected data separately, and the other edge A failure notification method in a mutual monitoring system, wherein a contention control step for updating all the failure information based on the unreflected data is executed upon completion of update access according to.
  6.  前記コアは、
     前記全障害情報が格納される全障害情報格納ディレクトリと、
     前記未反映データが一時的に格納される未反映データ格納用ディレクトリと、
     を含み、
     前記競合制御ステップでは、
     前記競合制御部が、前記複数のエッジのいずかのエッジから前記全障害情報格納ディレクトリに格納済みの全障害情報が新たな障害情報で更新アクセスされる際、前記格納済みの全障害情報が他のエッジから更新アクセスされている場合、前記新たな障害情報を前記未反映データ格納用ディレクトリに一時的に格納する未反映データ退避ステップと、
     前記新たな障害情報を用いて前記格納済みの全障害情報の更新アクセスが終了したことを契機として、前記未反映データ格納用ディレクトリに一時的に格納された前記新たな障害情報を用いて前記更新アクセスが終了済みの全障害情報を更新するデータ更新ステップと、
     を実行することを特徴とする請求項5に記載の相互監視システムにおける障害通知方法。
    The core is
    A total failure information storage directory in which the total failure information is stored;
    A directory for storing unreflected data in which the unreflected data is temporarily stored;
    Including
    In the contention control step,
    When the contention control unit updates and accesses all the fault information stored in the all fault information storage directory with new fault information from any one of the plurality of edges, the stored total fault information is When update access is performed from another edge, an unreflected data saving step for temporarily storing the new failure information in the unreflected data storage directory;
    The update using the new failure information temporarily stored in the unreflected data storage directory when the update access of all stored failure information using the new failure information has ended. A data update step for updating all fault information that has been accessed;
    The failure notification method in the mutual monitoring system according to claim 5, wherein:
  7.  前記複数のエッジでは、それぞれ、
     前記他障害情報取得ステップにおいて他障害情報取得部が、前記コアから取得した他の障害情報に基づいて前記複数のエッジのいずれかのエッジに障害が発生していると判定した場合、前記複数のエッジを監視する管理端末に対して代わりに通知する障害代理報告ステップ
     を実行可能であることを特徴とする請求項5に記載の相互監視システムにおける障害通知方法。
    In each of the plurality of edges,
    When the other failure information acquisition unit determines in the other failure information acquisition step that a failure has occurred in any one of the plurality of edges based on the other failure information acquired from the core, The failure notification method in the mutual monitoring system according to claim 5, wherein a failure proxy reporting step of notifying the management terminal that monitors the edge instead can be executed.
  8.  前記複数のエッジは、それぞれ、
     前記コアにおいて前記複数のエッジのうちの他のエッジに関する他障害情報が所定期間に亘って更新されていないことを基に、前記他のエッジと前記コアとの間において通信障害が生じていると判定することを特徴とする請求項5に記載の相互監視システムにおける障害通知方法。
    The plurality of edges are respectively
    A communication failure occurs between the other edge and the core based on the fact that the other failure information related to the other edge of the plurality of edges is not updated over a predetermined period in the core. The failure notification method in the mutual monitoring system according to claim 5, wherein determination is performed.
  9.  共有リソースが格納されるコアと、前記共有リソースに対してアクセスする複数のエッジと、を有するコアエッジ構成の相互監視システムにおいて障害通知機能を発揮させるプログラムが記録された非一時的な記録媒体において、
     前記複数のエッジでは、それぞれ、コンピュータに、
     自らのエッジの性能履歴に基づく自らの障害情報とともに他のエッジの性能履歴に基づく他の障害情報を保持可能な障害情報保持部における自らのエッジに関する前記自らの障害情報を前記コアに通知させ、前記自らの障害情報に基づいて前記コアのコア側障害情報管理部によって管理されている前記複数のエッジにおける全障害情報を更新し反映させる自障害情報報告ステップと、
     前記共有リソースとして前記全障害情報のうち他のエッジに関する他の障害情報が前記保持済みの他の障害情報よりも新しい場合、前記全障害情報から取得した他の障害情報を用いて前記障害情報保持部に保持されている他の障害情報を更新させる他障害情報取得ステップと、
     を実行させ、
     前記コアでは、コンピュータに、
     前記複数のエッジのうちの特定のエッジによって前記全障害情報への更新アクセスを試行させた際、前記複数のエッジのうちの他のエッジによって前記全障害情報に対して更新アクセスがなされている状態である場合、前記特定のエッジによる更新アクセスを規制させる代わりに、前記特定のエッジによる更新アクセスの要求内容を未反映データとして別途一時的に格納させておき、前記他のエッジによる更新アクセスが完了したことを契機として前記未反映データに基づいて前記全障害情報を更新させる競合制御ステップ
     を実行させて相互監視システムにおいて障害通知機能を発揮させるプログラムが記録された非一時的な記録媒体。
    In a non-temporary recording medium recorded with a program that exhibits a failure notification function in a core edge configuration mutual monitoring system having a core in which a shared resource is stored and a plurality of edges that access the shared resource,
    In each of the plurality of edges,
    Notifying the core of the failure information related to the edge in the failure information holding unit capable of holding other failure information based on the performance history of the other edge together with the own failure information based on the performance history of the own edge, Self-fault information reporting step for updating and reflecting all fault information at the plurality of edges managed by the core-side fault information management unit of the core based on the fault information of the core;
    When other fault information related to other edges of the total fault information as the shared resource is newer than the other fault information already held, the fault information is held using other fault information acquired from the total fault information. Other fault information acquisition step for updating other fault information held in the department,
    And execute
    In the core, the computer
    When update access to the entire failure information is attempted by a specific edge of the plurality of edges, update access is made to the entire failure information by another edge of the plurality of edges In this case, instead of restricting update access by the specific edge, the update access request content by the specific edge is temporarily stored separately as unreflected data, and the update access by the other edge is completed. A non-temporary recording medium recorded with a program for executing the contention control step of updating the entire failure information based on the unreflected data and performing the failure notification function in the mutual monitoring system.
PCT/JP2015/084035 2015-12-03 2015-12-03 Mutual supervisory system, failure notification method in mutual supervisory system, and non-transitory storage medium in which program for exerting failure notification function is recorded WO2017094168A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/084035 WO2017094168A1 (en) 2015-12-03 2015-12-03 Mutual supervisory system, failure notification method in mutual supervisory system, and non-transitory storage medium in which program for exerting failure notification function is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/084035 WO2017094168A1 (en) 2015-12-03 2015-12-03 Mutual supervisory system, failure notification method in mutual supervisory system, and non-transitory storage medium in which program for exerting failure notification function is recorded

Publications (1)

Publication Number Publication Date
WO2017094168A1 true WO2017094168A1 (en) 2017-06-08

Family

ID=58796565

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/084035 WO2017094168A1 (en) 2015-12-03 2015-12-03 Mutual supervisory system, failure notification method in mutual supervisory system, and non-transitory storage medium in which program for exerting failure notification function is recorded

Country Status (1)

Country Link
WO (1) WO2017094168A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11876860B2 (en) 2022-05-26 2024-01-16 Hitachi, Ltd. Data sharing system, data sharing method and non-transitory computer-readable recording medium for data sharing program
CN118368550A (en) * 2024-06-19 2024-07-19 杭州奥克光电设备有限公司 Operation and maintenance method and system based on intelligent optical transmission equipment of Internet of things

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180690A (en) * 1992-12-11 1994-06-28 Mitsubishi Electric Corp Multiple computer system control method
JP2006079161A (en) * 2004-09-07 2006-03-23 Hitachi Ltd Failover method and computing system
JP2013532314A (en) * 2010-12-14 2013-08-15 株式会社日立製作所 Failure recovery method in information processing system and information processing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180690A (en) * 1992-12-11 1994-06-28 Mitsubishi Electric Corp Multiple computer system control method
JP2006079161A (en) * 2004-09-07 2006-03-23 Hitachi Ltd Failover method and computing system
JP2013532314A (en) * 2010-12-14 2013-08-15 株式会社日立製作所 Failure recovery method in information processing system and information processing system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11876860B2 (en) 2022-05-26 2024-01-16 Hitachi, Ltd. Data sharing system, data sharing method and non-transitory computer-readable recording medium for data sharing program
CN118368550A (en) * 2024-06-19 2024-07-19 杭州奥克光电设备有限公司 Operation and maintenance method and system based on intelligent optical transmission equipment of Internet of things

Similar Documents

Publication Publication Date Title
US11816063B2 (en) Automatic archiving of data store log data
US11176008B2 (en) Automatic configuration of a recovery service
US10353790B1 (en) Disaster recovery rehearsals
US20190108231A1 (en) Application Aware Snapshots
US8756199B2 (en) File level hierarchical storage management system, method, and apparatus
US8655851B2 (en) Method and system for performing a clean file lock recovery during a network filesystem server migration or failover
US8533171B2 (en) Method and system for restarting file lock services at an adoptive node during a network filesystem server migration or failover
JP5165206B2 (en) Backup system and backup method
US20150263909A1 (en) System and method for monitoring a large number of information processing devices in a communication network
US8301602B1 (en) Detection of inconsistencies in a file system
US9984139B1 (en) Publish session framework for datastore operation records
EP3535955B1 (en) Systems, devices and methods for managing file system replication
CN114064374A (en) Fault detection method and system based on distributed block storage
WO2017094168A1 (en) Mutual supervisory system, failure notification method in mutual supervisory system, and non-transitory storage medium in which program for exerting failure notification function is recorded
US20240134761A1 (en) Application recovery configuration validation
US11057264B1 (en) Discovery and configuration of disaster recovery information
CN108595287B (en) Data truncation method and device based on erasure codes
JP2017004502A (en) Information system and update method
US7587466B2 (en) Method and computer system for information notification
US20190294308A1 (en) System and method of smart framework for troubleshooting performance issues
CN110647427A (en) Main and standby system based on storage sharing and implementation method thereof
CA3025225A1 (en) Application aware snapshots
US20230393947A1 (en) Archiving computing snapshots to multiple locations in accordance with a service level agreement
US20230090032A1 (en) Storage system and control method
WO2013073022A1 (en) Computer system and fault detection method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15909798

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15909798

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP