WO2010116456A1 - オペレーションシステムのデータ管理方法及びサーバ - Google Patents

オペレーションシステムのデータ管理方法及びサーバ Download PDF

Info

Publication number
WO2010116456A1
WO2010116456A1 PCT/JP2009/056529 JP2009056529W WO2010116456A1 WO 2010116456 A1 WO2010116456 A1 WO 2010116456A1 JP 2009056529 W JP2009056529 W JP 2009056529W WO 2010116456 A1 WO2010116456 A1 WO 2010116456A1
Authority
WO
WIPO (PCT)
Prior art keywords
server
information
storage means
database
update
Prior art date
Application number
PCT/JP2009/056529
Other languages
English (en)
French (fr)
Inventor
晃典 松野
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2011508099A priority Critical patent/JP5278540B2/ja
Priority to PCT/JP2009/056529 priority patent/WO2010116456A1/ja
Publication of WO2010116456A1 publication Critical patent/WO2010116456A1/ja
Priority to US13/200,711 priority patent/US8862707B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0853Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information
    • H04L41/0856Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information by backing up or archiving configuration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Definitions

  • the present invention relates to a data management method and a server for an operation system that includes a plurality of clients, a main system, and a standby server, and performs monitoring control of a transmission apparatus that forms a network.
  • FIG. 1 shows a configuration diagram of an example of a conventional hot standby dual monitoring OpS (Operation System) system.
  • an OpS system 10 is connected to and input from clients 11-1 to 11-m of a client system that accepts a service request such as monitoring / control from an operator and a client via a monitoring network 12.
  • the server system has a primary system and a backup server 13 and 14 for executing the service request.
  • the servers 13 and 14 are connected to each other via transmission devices (NE: Network Element) 16-1 to 16-n to be monitored and controlled via the monitoring network 15.
  • the transmission devices 16-1 to 16-n constitute a network that transmits and receives main signals.
  • the hot standby dual monitoring OpS system employs a multi-site in which main and standby servers 13 and 14 are arranged at remote locations for disaster countermeasures.
  • configuration databases 13a and 14a and monitoring databases 13b and 14b are provided in the primary and standby servers 13 and 14, respectively. It has been operated 24 hours a day, 365 days a year.
  • the configuration databases 13a and 14a are synchronized with each other in the primary system and the standby system using the multi-master replication function.
  • the monitoring databases 13b and 14b are managed by a single server in order to realize dual monitoring. Because dual monitoring is used to monitor independently in the main system and the standby system, alarm data such as traps are managed redundantly, so that the monitoring network 15 or the transmission devices 16-1 to 16-n Monitoring performance has been improved by minimizing alarms and other missed events.
  • the active and standby communication control devices A and B the duplex shared disk devices ca and cb, and the built-in disk devices ia provided in the communication control devices A and B, respectively.
  • Ib and only the service essential information stored in the ca and cb is stored in the internal disk devices ia and ib, and the active communication control device is stored in the internal disk when a failure occurs.
  • a technique using service essential information is known (see, for example, Patent Document 1).
  • a process control unit that controls the operation of all processes of the system, an original process that includes all operation programs for system operation and a system management program, and an operation management program for the original process
  • a technique that includes a clone process having the necessary minimum of these, and that performs regular communication between the original process and the clone process (see, for example, Patent Document 2).
  • a plurality of communication processing servers that perform a batch of communication processing, a log server that includes a duplex disk that accumulates processing log data of each communication processing server, the communication processing server and the log server are monitored, and when a failure occurs
  • a distributed communication system having a monitoring server that performs restart control is known (see, for example, Patent Document 3).
  • JP 2006-107074 A Japanese Patent Laid-Open No. 2000-215074 JP-A-8-79246 Special table 2008-538242 gazette
  • the configuration database update is allowed only in the active system (primary system or standby system) in order to keep the execution sequence of the configuration database update transaction. Then, the data is synchronized between the active and non-operating configuration databases by propagating the query to the non-operating system (standby system or main system) using the replication function.
  • the non-active system updates all the active update transactions to the non-active system. It is not possible to switch to the active system until it is confirmed that it has been propagated. This is to ensure consistency of the configuration database and prevent data deadlock.
  • one of the purposes has been made in view of the above points, and is to provide an operation system data management method and a server that reduce operational restrictions when an operational server cannot be accessed.
  • Other system monitoring that monitors the status of the other server in the server of the operation system that is composed of a plurality of clients, the primary system and the standby system server, and monitors and controls the transmission apparatus that configures the network with the primary system and the standby server.
  • History storage means for holding update of configuration information as update history information, and stored in the local server and other server based on the update history information of the history storage means of the local system and other system server when the other system server is restored
  • Configuration information updating means for updating the network configuration information.
  • FIG. 3 shows a block diagram of an embodiment of a hot standby dual monitoring OpS system.
  • an OpS system 20 is mutually connected and input to clients 21-1 to 21-m of a client system that accepts a service request such as monitoring / control from an operator and a client via a monitoring network 22.
  • Server servers 23 and 24 for server systems that execute service requests.
  • the servers 23 and 24 are connected to transmission devices (NE) 26-1 to 26-n to be monitored and controlled via the monitoring network 25.
  • the transmission devices 26-1 to 26-n constitute a network that transmits and receives main signals.
  • the hot standby dual monitoring OpS system employs a multi-site in which main and standby servers 23 and 24 are arranged at remote locations for disaster countermeasures.
  • the configuration databases 23a and 24a, the monitoring databases 23b and 24b, and the temporary database are provided inside the primary and standby servers, respectively.
  • Databases 23c and 24c and history databases 23d and 24d are provided, and a 24-hour 365-day operation is realized.
  • the configuration databases 23a and 24a are synchronized with each other in the primary system and the standby system using the multi-master replication function.
  • the monitoring databases 23b and 24b are managed by a single server in order to realize dual monitoring. Because dual monitoring is used to monitor independently in the main system and the standby system, alarm data such as traps are managed redundantly, in the event of a failure in the monitoring network 25 or a failure in the transmission devices 26-1 to 26-n. Monitoring performance has been improved by minimizing alarms and other missed events.
  • the following five points are listed as the basic mechanism of the hot standby dual monitoring OpS system. It is a hot standby redundant configuration. Dual monitoring. (The primary system and the standby system are monitored independently.)
  • the configuration database is synchronized by multi-master replication. The configuration database is changed only from the operational system.
  • the standby system can also be switched to a non-operating system (standby system) or an operating system (act system) by performing operation switching.
  • a single server can also be operated.
  • FIG. 4 shows a functional block diagram of an embodiment of the server.
  • a client communication unit 31 performs communication with a client.
  • the client communication unit 31 receives a request from the client, acquires data corresponding to the request via the database access unit 33, and responds to the client. It also provides alerts and system event notifications to clients.
  • the communication unit 32 for other servers communicates with other servers.
  • the communication unit 32 for the other server receives the other system state monitoring request or the operation state change notification request from the operation configuration management unit 34, and transmits a status monitoring message to the other server.
  • a message from another server is received and notified to the operation configuration management unit 34.
  • the database access unit 33 acquires information from the database and updates the database.
  • the database access unit 33 responds to data acquisition requests and update requests from the client communication unit 31, operation configuration management unit 34, and NE control monitoring management unit 35, and includes a configuration database 37, a monitoring database 38, a temporary database 39, and a history database 40. Access to.
  • the operation configuration management memory 41 is referred to, and the database to be accessed is determined.
  • the database access unit 33 refers to the operation configuration management memory 41 and locks and initializes the database.
  • the operation configuration management unit 34 manages the operation state of the own server. In addition, the operation configuration management unit 34 monitors the status of the other system server, and changes the operation status and the database status in the operation configuration management memory 41 when an abnormality of the other system server is detected. At the time of normal detection of the other server, the operation configuration management unit 34 sends a request for transmission of an operation configuration change notification or the like to the communication unit 32 for the other server. In the database recovery, the operational configuration management unit 34 develops the history database 40 in the update history management memory 42 through the database access unit 33.
  • the operation configuration management unit 34 performs a matching process between the update history information message received from the other system and the update history management memory 42, expands it into the update history matching memory 43, and updates the configuration database 37 through the database access unit 33. Do.
  • the NE control monitoring management unit 35 performs communication management with the transmission apparatus (NE).
  • the NE control monitoring manager 35 receives a control request from the client communication unit 31 and makes a command transmission request to the NE communication unit 36.
  • the operation state on the operation configuration management memory 41 is referred to, and a command transmission request is made to the NE communication unit 36 only at the time of operation.
  • a response indicating that transmission is impossible is returned to the communication unit 31 for clients.
  • the database is updated through the database access unit 33.
  • the NE communication unit 36 communicates with the transmission device.
  • the NE communication unit 36 receives a command transmission request from the NE control monitoring management unit 35 and transmits a message to the transmission apparatus.
  • a command transmission response or event reception notification is sent to the NE control monitoring management unit 35.
  • the configuration database 37 is the configuration database 23a, 24a in FIG. 3, and stores the station information, device information, network information, NE configuration information, etc. used in OpS.
  • the monitoring database 38 is the monitoring databases 23b and 24b in FIG. 3, and is a database that holds NEs managed by OpS, journal management of events generated inside OpS, management of alarms that are occurring, alarm history, and the like. .
  • the temporary database 39 is the temporary databases 23 c and 24 c in FIG. 3 and is a database having the same configuration as the configuration database 37.
  • the temporary database 39 is not used during normal operation, but is used instead of the configuration database 37 when the redundant configuration is abnormal.
  • the history database 40 is the history database 23d, 24d in FIG. 3, and is a database for holding a history of updated information in the temporary database 39.
  • the operation configuration management memory 41 is an internal memory for holding the operation information of the own server, the status information of the other server, and the database operation status.
  • the update history management memory 42 is an internal memory used for developing information of the history database 40 in the own server.
  • the other system update history management memory 43 is an internal memory that temporarily stores update history information received from another system server.
  • the update history matching memory 44 is an internal memory used for returning the configuration database 37 to a normal state.
  • the update history matching memory 44 is used to develop information in which update history information in the update history management memory 42 and the other system update history management memory 43 is matched (merged) in time series.
  • FIG. 5 shows an example of the configuration database 37.
  • station names corresponding to station IDs are registered as station information.
  • a device name, a station ID, and a device type are registered corresponding to the transmission device ID.
  • a network name is registered as network information corresponding to the network ID.
  • a transmission device ID corresponding to the network ID is registered as device information in the network.
  • a slot position, a package type, and a use state are registered corresponding to the network ID.
  • port information such as soft strap information and facility information, connection information such as jumper information, path information, and the like are registered.
  • FIG. 6 shows an example of the monitoring database 38.
  • journal information a part (slot position), occurrence / recovery (/ event), alarm type (RMBD: missing, LOS: signal loss, SW: switching occurrence, cold corresponding to the network ID Start, etc.) and the time of occurrence is registered.
  • a part slot position
  • occurrence / recovery / event
  • alarm type RMBD: missing
  • LOS signal loss
  • SW switching occurrence
  • cold corresponding to the network ID Start etc.
  • alarm information that is occurring the part, alarm type, and time of occurrence are registered corresponding to the network ID.
  • alarm history information a part, an alarm type, and an occurrence time are registered corresponding to the network ID.
  • system information a type (operation switching, database backup execution, etc.) and an occurrence time are registered corresponding to parts such as a system and a server.
  • FIG. 7 shows an example of the temporary database 39.
  • the same items as the configuration database 37 are registered in the temporary database 39.
  • FIG. 8 shows an example of the history database 40.
  • the execution time is registered corresponding to the update information for the own system.
  • FIG. 9 shows an example of the operation configuration management memory 41.
  • the operational status of the own device either the primary / standby status, the active / non-active status, and the database status (master: configuration database 37 is used) Medium / temporary: Temporary database 39 is in use) and any state of operation / abnormal / working is registered.
  • FIG. 10 shows an example of the update history management memory 42.
  • the execution time is registered as a history corresponding to the update information for the own system.
  • FIG. 11 shows an example of the other system update history management memory 43.
  • the other system update history management memory 43 registers the execution time corresponding to the update information for the other system.
  • FIG. 12 shows an example of the update history matching memory 44.
  • execution times are registered in time series corresponding to the update information of the own system and the other system.
  • a primary server 23 and a standby server 24 each determines that the status of the other server is abnormal.
  • the primary server 23 and the standby server 24 hold the update transaction as it is, and lock the configuration database 37 (inhibit update, indicated by a key mark in the figure). Data contents of the database 37 are copied to the temporary database 39, and the database state on the operation configuration management memory 41 is set to an abnormal state. Further, the standby server 24 sets the active system on the operation configuration management memory 41.
  • data reference and data update from the database access unit 33 are performed in the temporary database 39, and change information such as data update is held in the history database 40.
  • the monitoring database 38 is managed by a single server regardless of the operating state of the servers 23 and 24.
  • the communication unit 32 for the other server and the operation configuration management unit 34 of the main server 23 transmit another system state monitoring message to the standby server 24.
  • the primary server 23 can receive the response of the status monitoring message from the standby server 24.
  • the primary server 23 determines that the system status has been restored, and transmits an operational configuration change notification to the standby server 24 (arrow S2).
  • the communication unit 32 and the operation configuration management unit 34 for the standby server 24 Upon receiving the operation configuration change notification, the communication unit 32 and the operation configuration management unit 34 for the standby server 24 set the database state on the operation configuration management memory 41 to be working, and store the temporary database 39 and the history database 40. Lock it. Thereafter, an operational configuration change possible notification is transmitted to the primary server 23 (arrow S3).
  • the standby server 24 communication unit 32 and the operation configuration management unit 34 for the other servers receive the operation configuration change execution notification
  • the history database 40 (24d) is sent through the database access unit 33.
  • the update history management memory 42 is expanded in the update history management memory 42.
  • the standby server 24 transmits information on the update history management memory 42 to the main server 23.
  • the communication unit 32 and the operation configuration management unit 34 for the other server in the primary server 23 develop them in the other system update history management memory 43. .
  • the communication unit 32 and the operation configuration management unit 34 for the standby server 24 change the operation state on the operation configuration management memory 41 to the non-operation system after all the update history information has been transmitted to the main server 23.
  • the database state is changed to the normal state, and an operation configuration change completion notification is transmitted.
  • the standby server 24 is in a normal state operated by the configuration database 37 and the monitoring database 38.
  • the communication unit 32 and the operation configuration management unit 34 for the other server in the main server 23 Upon receiving the operation configuration completion notification, the communication unit 32 and the operation configuration management unit 34 for the other server in the main server 23 read the information from the history database 40 through the database access unit 33 and develop it in the update history management memory 42. . Thereafter, the information on the update history management memory 42 and the information on the other system update history management memory 43 are merged into their own series and developed in the update history matching memory 44.
  • the communication unit 32 for the other servers and the operation configuration management unit 34 of the main server 23 update the configuration database 37 based on the information in the update history matching memory 44.
  • the configuration database 37 of the primary server 23 is updated
  • the configuration database 37 of the standby server 24 is also updated in synchronization with the configuration database 37 of the primary server 23 by the replication function. At this time, the transaction before the abnormal state is propagated to the standby server 24.
  • the database state on the operation configuration management memory 41 is changed to the normal state, and the state is changed to the normal state.
  • an operation configuration change normal end notification is transmitted to the standby server 24, and a normal operation event is also notified to the maintenance person through the client communication unit 31.
  • update information mismatch update of deleted data, etc.
  • error information is sent to the client communication unit. Through 31, the maintenance person is notified.
  • ⁇ OpS system flowchart> 19 to 21 show flowcharts of processing executed by the OpS system.
  • the server in step S10, the server (primary server 23 or standby server 24) transmits the other system status monitoring message to the other system server, and in step S11, the status monitoring response message from the other system server within a predetermined time. It is determined whether or not it has been possible to receive a certain number of times.
  • step S12 If the status monitoring response message from the other system cannot be received within a certain time for a certain number of times, the configuration database 37 is locked in step S12, and the data content of the configuration database 37 is copied to the temporary database 39 in step S13.
  • step S14 the database state on the operation configuration management memory 41 is changed to operation in the temporary database 39 as temporary.
  • step S15 it is determined from the setting of the operation configuration management memory 41 whether or not the own server is the active system. If it is a non-operating system, the own server is changed to the active system in step S16. This change is performed on the operation configuration management memory 41.
  • step S17 it is determined from the setting of the operation configuration management memory 41 whether or not the own server is the main server. If it is the primary server 23, the status monitoring message of the other system is transmitted to the standby server 24 in step S18, and it is determined whether or not the status monitoring response message from the standby server 24 can be received within a predetermined time in step S19. To do. When the status monitoring response message from the standby server 24 can be received within a certain time, the process proceeds to step S21 in FIG.
  • step S17 if the local server is the standby system 24 in step S17, the process proceeds to step S41 in FIG.
  • step S21 of FIG. 20 the primary server 23 transmits an operational configuration change notification to the standby server 24. Then, in step S22, the primary server 23 waits for reception of the operational configuration changeable notification. If it is determined in step S23 that the operational configuration changeable notification is received, the process proceeds to step S24.
  • step S24 the main server 23 locks the temporary database 39 and the history database 40, and the database state on the operation configuration management memory 41 is in operation in step S25. Thereafter, in step S26, the primary server 23 transmits an operational configuration change execution notification, which is a request for transmitting update history information, to the standby server 24, and then proceeds to step S27 in FIG.
  • step S41 of FIG. 20 the standby server 24 waits for reception of the operational configuration changeable notification. If it is determined in step S42 that the operational configuration changeable notification is received, the standby server 24 proceeds to step S43.
  • step S43 the standby server 24 locks the temporary database 39 and the history database 40, and sets the database state on the operation configuration management memory 41 to work in step S44. Thereafter, the standby server 24 transmits an operation configuration change execution notification to the primary server 23 in step S45.
  • step S46 the standby server 24 waits for the reception of the operation configuration change execution notification.
  • step S47 the process proceeds to step S48.
  • step S48 the standby server 24 reads information from the history database 40, and then proceeds to step S49 of FIG.
  • step S27 of FIG. 21 the main server 23 receives the update history information, and determines whether or not an operation configuration change completion notification is received in step S28.
  • the primary server 23 receives the update history information in step S27 until it receives an operation configuration change completion notification.
  • the primary server 23 reads information from the history database 40 in step S29.
  • step S30 the main server 23 merges the update information read from the history database 40 with the update information read from the history database 40 of the standby server 24 and transmitted from the standby server 24 in time series.
  • the main server 23 reflects the merged update information in the configuration database 37 in step S31. That is, the configuration database 37 is updated.
  • the configuration database 37 of the standby server 24 is also updated in synchronization with the configuration database 37 of the primary server 23 by the replication function.
  • step S32 the primary server 23 determines whether or not there is an error in updating the configuration database 37. If there is an error such as update of the deleted data, for example, the clients 21-1 to 21- are detected in step S33. An error is notified to a part or all of m.
  • step S34 the primary server 23 transmits an operational configuration change normal end notification to the standby server 24.
  • step S35 the primary server 23 updates the database state in the operational configuration management memory 41 to the normal state. It changes to a state and progresses to step S10 of FIG.
  • step S49 in FIG. 21 the standby server 24 transmits the information read from the history database 40 to the main server 23. Thereafter, when all the update history information has been transmitted, the standby server 24 transmits an operation configuration change completion notification to the main server 23 in step S50.
  • step S51 the standby server 24 waits for reception of an operation configuration change normal end notification.
  • step S52 the operation configuration change normal end notification has been received
  • step S53 the standby server 24 updates the database state in the operation configuration management memory 41 to the normal state, transitions to the normal state, and step S10 in FIG. Proceed to
  • both of the primary server 23 and the standby server 24 are used.
  • the configuration database 37 that is synchronously matched is maintained as it is.
  • the temporary database 39 obtained by copying the contents of the configuration database 37 the non-operating standby server 24 can be immediately switched to the operating system.
  • the update process of the temporary database 39 can be permitted.
  • the database update information in the history database 40 is stored in the original operation system when the system is restored by the restoration of both the servers 23 and 24 and the communication restoration.
  • the update history information of the standby server 24 is transmitted to the primary server 23 at the time of recovery, and the configuration database 37 of the primary server 23 is updated by merging the update history information with the primary server 23.
  • the update history information of the primary server 23 is transmitted to the standby server 24 at the time of recovery, and the configuration database 37 of the standby server 24 is updated by merging the update history information with the standby server 24.
  • the present invention is not limited to the above embodiment.
  • the configuration database 37 is used as an example of the configuration information storage unit
  • the monitoring database 38 is used as an example of the monitoring information storage unit
  • the communication unit 32 for other system servers is used as an example of the other system monitoring unit.
  • the temporary database 39 is used as an example of the means
  • the history database 40 is used as an example of the history storage means
  • the operation configuration management unit 34 is used as an example of the configuration information update means
  • the operation configuration management unit 34 is used as an example of the operation system switching means. Used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

 複数のクライアントと主系及び予備系サーバで構成され、前記主系及び予備系サーバでネットワークを構成する伝送装置の監視制御を行うオペレーションシステムのサーバにおいて、他系サーバの状態を監視する他系監視手段と、他系サーバの異常検出時に、自系サーバに記録されているネットワーク構成情報の内容をコピーして監視制御に用いる一時記憶手段と、前記一時記憶手段に反映される前記クライアントからのネットワーク構成情報の更新を更新履歴情報として保持する履歴記憶手段と、他系サーバの復旧時に、前記自系及び他系サーバの履歴記憶手段の更新履歴情報を基に自系サーバ及び他系サーバに記録されたネットワーク構成情報の更新を行う構成情報更新手段と、を有する。

Description

オペレーションシステムのデータ管理方法及びサーバ
 本発明は、複数のクライアントと主系及び予備系サーバで構成され、ネットワークを構成する伝送装置の監視制御を行うオペレーションシステムのデータ管理方法及びサーバに関する。
 図1は、従来のホットスタンバイデュアル監視OpS(Operation System)システムの一例の構成図を示す。図1において、OpSシステム10は、オペレータからの監視・制御等のサービス要求を受け入れるクライアントシステムのクライアント11-1~11-mと、監視用ネットワーク12を介してクライアントと相互に接続され、入力されたサービス要求を実行するサーバシステムの主系,予備系のサーバ13,14を有する。
 サーバ13,14は、監視用ネットワーク15を介して監視及び制御の対象となる伝送装置(NE:Network Element)16-1~16-nと相互に接続されている。伝送装置16-1~16-nは主信号を送受信するネットワークを構成している。
 ホットスタンバイデュアル監視OpSシステムでは、被災対策のため主系,予備系のサーバ13,14を遠隔地に配置したマルチサイトを採用している。サーバの保守作業時や冗長構成の片系が故障した場合でも運用可能とするために、主系,予備系サーバ13,14の内部にそれぞれ構成データベース13a,14a及び監視データベース13b,14bを備えており、24時間365日運転を実現している。
 構成データベース13a,14aはマルチマスターレプリケーション機能を用いて主系,予備系でデータ同期させている。監視データベース13b,14bはデュアル監視を実現するため、サーバ単体でデータ管理されている。主系,予備系で単独で監視を行うデュアル監視を用いているため、Trapなどの警報データを冗長的に管理させ、監視用ネットワーク15の障害や伝送装置16-1~16-nの障害における警報などの取りこぼしを最小限に抑え、監視性能を向上させている。
 ところで、二重化通信制御システムでは、運用系、待機系の通信制御装置A、Bと、2重化された共用ディスク装置ca、cb、通信制御装置A、B内に各々設けられた内蔵ディスク装置ia、ibを有し、該ca、cbに蓄積されたサービス情報の内、サービス必須情報のみを内蔵ディスク装置ia、ibに蓄積し、障害発生時に運用系の通信制御装置は内蔵ディスクに格納されたサービス必須情報を用いる技術が知られている(例えば特許文献1参照)。
 また、通信システムの障害自動復旧方式では、システムの全プロセスの動作制御を行うプロセス制御部、システム動作用の運用プログラムとシステム管理用プログラムの全てを備えるオリジナルプロセス、該オリジナルプロセスの運用管理プログラムの内必要最小限を備えるクローンプロセスを備え、該オリジナルプロセスと該クローンプロセス間で定期通信を行わせる技術が知られている(例えば特許文献2参照)。
 また、一まとまりの通信処理を行う複数の通信処理サーバ、各通信処理サーバの処理ログデータを蓄積する2重化ディスクを備えたログサーバ、通信処理サーバとログサーバの監視を行い障害発生時の再起動制御を行う監視サーバを有する分散型通信システムが知られている(例えば特許文献3参照)。
 また、画像処理システム用サーバにおいて、バックアップサーバを有し、1次サーバが利用可能でない旨を検出すると、バックアップサーバに処理動作を切り換える技術が知られている(例えば特許文献4参照)。
特開2006-107074号公報 特開2000-215074号公報 特開平8-79246号公報 特表2008-538242号公報
 ホットスタンバイデュアル監視OpSシステムでは構成データベースの更新トランザクションの実行順序を守るため、運用系(主系又は予備系)のみで構成データベースの更新を許容している。そして、レプリケーション機能で非運用系(予備系又は主系)にクエリーを伝播することで運用系と非運用系の構成データベースのデータ同期を実施している。
 図2に示すように、運用系サーバ13がハード故障やアプリケーション異常等でダウンした場合や運用系サーバ14へのアクセスできなくなった場合、非運用系は運用系の更新トランザクションが全て非運用系に伝播されたかを確認するまでは運用系に切替わることができない。これは構成データベースの整合を保証し、データのデッドロックを防止するためである。
 このため、構成データベースの更新を伴うデータ登録処理や伝送装置の制御処理を行うことができない非運用系の片系運用とすることで、構成データベースの整合を保証していた。このことは、非運用系にて監視のみ可能という運用制限をユーザに強いることになるという問題があった。
 そこで、目的の一つは、上記の点に鑑みなされたものであり、運用系サーバにアクセスできない場合における運用制限を低減するオペレーションシステムのデータ管理方法及びサーバを提供することである。
 複数のクライアントと主系及び予備系サーバで構成され、前記主系及び予備系サーバでネットワークを構成する伝送装置の監視制御を行うオペレーションシステムのサーバにおいて、他系サーバの状態を監視する他系監視手段と、他系サーバの異常検出時に、自系サーバに記憶されているネットワーク構成情報の内容をコピーして監視制御に用いる一時記憶手段と、前記一時記憶手段に反映される前記クライアントからのネットワーク構成情報の更新を更新履歴情報として保持する履歴記憶手段と、他系サーバの復旧時に、前記自系及び他系サーバの履歴記憶手段の更新履歴情報を基に自系サーバ及び他系サーバに記憶されたネットワーク構成情報の更新を行う構成情報更新手段と、を有する。
 本実施形態によれば、運用系サーバにアクセスできない場合における運用制限を低減することができる。
従来のOpSシステムの一例の構成図である。 従来のOpSシステムの障害時の動作を説明するための図である。 OpSシステムの一実施形態の構成図である。 サーバの一実施形態の機能ブロック図である。 構成データベースの一例を示す図である。 監視データベースの一例を示す図である。 テンポラリーデータベースの一例を示す図である。 履歴データベースの一例を示す図である。 運用構成管理メモリの一例を示す図である。 更新履歴管理メモリの一例を示す図である。 他系更新履歴管理メモリの一例を示す図である。 更新履歴整合用メモリの一例を示す図である。 他系状態監視を説明するための図である。 障害発生時の動作を説明するための図である。 障害復旧時の動作を説明するための図である。 障害復旧時の動作を説明するための図である。 障害復旧時の動作を説明するための図である。 障害復旧時の動作を説明するための図である。 OpSシステムが実行する処理のフローチャートである。 OpSシステムが実行する処理のフローチャートである。 OpSシステムが実行する処理のフローチャートである。
符号の説明
 20 OpSシステム
 21-1~21-m クライアント
 22,25 監視用ネットワーク
 23 主系サーバ
 24 予備系サーバ
 26-1~26-n 伝送装置
 31 クライアント向け通信部
 32 他系サーバ向け通信部
 33 データベースアクセス部
 34 運用構成管理部
 35 NE制御監視管理部
 36 NE向け通信部
 37 構成データベース
 38 監視データベース
 39 テンポラリーデータベース
 40 履歴データベース
 41 運用構成管理メモリ
 42 更新履歴管理メモリ
 43 他系更新履歴管理メモリ
 44 更新履歴整合用メモリ
 以下、図面に基づいて実施形態について説明する。
 <OpSシステムの構成>
 図3は、ホットスタンバイデュアル監視OpSシステムの一実施形態の構成図を示す。図3において、OpSシステム20は、オペレータからの監視・制御等のサービス要求を受け入れるクライアントシステムのクライアント21-1~21-mと、監視用ネットワーク22を介してクライアントと相互に接続され、入力されたサービス要求を実行するサーバシステムの主系,予備系のサーバ23,24を有する。
 サーバ23,24は、監視用ネットワーク25を介して監視及び制御の対象となる伝送装置(NE)26-1~26-nと相互に接続されている。伝送装置26-1~26-nは主信号を送受信するネットワークを構成している。
 ホットスタンバイデュアル監視OpSシステムでは、被災対策のため主系,予備系のサーバ23,24を遠隔地に配置したマルチサイトを採用している。本実施形態ではサーバの保守作業時や冗長構成の片系が故障した場合でも運用可能とするために、主系,予備系サーバの内部にそれぞれ構成データベース23a,24a、監視データベース23b,24b、テンポラリーデータベース23c,24c、履歴データベース23d,24dを備えており、24時間365日運転を実現している。
 構成データベース23a,24aはマルチマスターレプリケーション機能を用いて主系,予備系でデータ同期させている。監視データベース23b,24bはデュアル監視を実現するため、サーバ単体でデータ管理されている。主系,予備系で単独で監視を行うデュアル監視を用いているため、Trapなどの警報データを冗長的に管理させ、監視用ネットワーク25の障害や伝送装置26-1~26-nの障害における警報などの取りこぼしを最小限に抑え、監視性能を向上させている。
 ホットスタンバイデュアル監視OpSシステムの基本的な仕組みとしては、以下の5点が挙げられる。ホットスタンバイ冗長構成である。デュアル監視である。(主系,予備系それぞれで単独で監視を行っている。)構成データベースはマルチマスターレプリケーションでデータベースの同期を行っている。構成データベースの変更は運用系のみからの実施である。予備系も運用切替えを実施することで、非運用系(スタンバイ系),運用系(アクト系)となることができる。1つのサーバ単体でも運用可能である。
 <サーバの機能ブロック図>
 図4はサーバの一実施形態の機能ブロック図を示す。図4において、クライアント向け通信部31は、クライアントとの通信を行う。クライアント向け通信部31はクライアントからの要求の受け付け、要求に応じたデータをデータベースアクセス部33経由で取得し、クライアントに応答する。また、クライアントへの警報やシステムイベント通知なども行う。
 他系サーバ向け通信部32は、他系サーバとの通信を行う。他系サーバ向け通信部32は運用構成管理部34から他系状態監視要求や運用状態変更通知要求などを受け付け、他系サーバへ状態監視電文を送信する。また、他系サーバからの電文を受信し、運用構成管理部34に通知する。
 データベースアクセス部33は、データベースからの情報取得及びデータベースの更新を行う。データベースアクセス部33はクライアント向け通信部31や運用構成管理部34及びNE制御監視管理部35からのデータ取得要求や更新要求に応じて、構成データベース37、監視データベース38、テンポラリーデータベース39、履歴データベース40へのアクセスを行う。データベースへのアクセスは、運用構成管理メモリ41を参照し、アクセス対象のデータベースを判断する。また、データベースアクセス部33は運用構成管理メモリ41を参照し、データベースのロック及び初期化を行う。
 運用構成管理部34は、自サーバの運用状態の管理を行う。また、運用構成管理部34は他系サーバの状態を監視し、他系サーバの異常検出時には、運用構成管理メモリ41内の運用状態及びデータベース状態を変更する。他系サーバの正常時検出時には、運用構成管理部34は運用構成変更通知などを他系サーバ向け通信部32に対し送信要求を行う。また、データベースの復旧においては、運用構成管理部34はデータベースアクセス部33を通じて履歴データベース40を更新履歴管理メモリ42に展開する。
 また、運用構成管理部34は他系から受信した更新履歴情報電文と更新履歴管理メモリ42の整合処理を行って更新履歴整合用メモリ43へ展開し、データベースアクセス部33を通じて構成データベース37の更新を行う。
 NE制御監視管理部35は、伝送装置(NE)との通信管理を行う。NE制御監視管理部35はクライアント向け通信部31から制御要求を受信し、NE向け通信部36に対してコマンド送信要求を行う。その際に、運用構成管理メモリ41上の運用状態を参照し、運用系時のみNE向け通信部36に対してコマンド送信要求を行う。非運用系時には、クライアント向け通信部31に送信不可の旨の応答を返却する。また、NE向け通信部36から受信したコマンド送信応答やイベントを受信すると、データベースアクセス部33を通じてデータベースを更新する。
 NE向け通信部36は、伝送装置との通信を行う。NE向け通信部36はNE制御監視管理部35からのコマンド送信要求を受け付け、伝送装置に対して電文を送信する。伝送装置から電文を受信した場合は、NE制御監視管理部35にコマンド送信応答やイベント受信通知を行う。
 構成データベース37は、図3における構成データベース23a,24aであり、OpSで使用する局情報、装置情報、ネットワーク情報、NE内構成情報などを保持するデータベースである。
 監視データベース38は、図3における監視データベース23b,24bであり、OpSで管理するNEやOpS内部に発生した警報やイベントのジャーナル管理や発生中の警報の管理、警報履歴などを保持するデータベースである。
 テンポラリーデータベース39は、図3におけるテンポラリーデータベース23c,24cであり、構成データベース37と同様な構成を持ったデータベースである。テンポラリーデータベース39は正常運用時には使用しないが、冗長構成の異常時に構成データベース37の代わりに使用する。
 履歴データベース40は、図3における履歴データベース23d,24dであり、テンポラリーデータベース39の情報を更新した履歴を保持するためのデータベースである。
 運用構成管理メモリ41は、自サーバの運用系情報や他系サーバの状態情報、データベース運用状態を保持するための内部メモリである。
 更新履歴管理メモリ42は、自サーバ内の履歴データベース40の情報を展開するために使用される内部メモリである。
 他系更新履歴管理メモリ43は、他系サーバから受信した更新履歴情報を一時的に格納する内部メモリである。
 更新履歴整合用メモリ44は、構成データベース37を正常状態に戻すために使用される内部メモリである。更新履歴整合用メモリ44は更新履歴管理メモリ42と他系更新履歴管理メモリ43内の更新履歴情報を時系列に整合(マージ)させた情報を展開するために使用する。
 <データベースの構成>
 図5に構成データベース37の一例を示す。構成データベース37には、局情報として、局ID(識別子)に対応して局名が登録されている。また、伝送装置情報として、伝送装置IDに対応して装置名と、局IDと、装置種別が登録されている。また、ネットワーク情報として、ネットワークIDに対応してネットワーク名が登録されている。
 また、ネットワーク内装置情報として、ネットワークIDに対応して伝送装置IDが登録されている。また、ネットワーク内パッケージ情報として、ネットワークIDに対応してスロット位置と、パッケージタイプと、使用状態が登録されている。この他にも、ソフトストラップ情報やファシリティ情報等のポート情報、ジャンパー情報等のコネクション情報、パス情報等が登録されている。
 図6に監視データベース38の一例を示す。監視データベース38には、ジャーナル情報として、ネットワークIDに対応して部位(スロット位置)と、発生/回復(/イベント)と、警報種別(RMBD:抜け,LOS:信号喪失,SW:切替え発生、コールドスタート等)と、発生時刻が登録されている。
 また、発生中アラーム情報(現在発生中のアラーム)として、ネットワークIDに対応して部位と警報種別と発生時刻が登録されている。また、アラーム履歴情報として、ネットワークIDに対応して部位と警報種別と発生時刻が登録されている。また、システム情報として、システム、サーバ等の部位に対応して種別(運用切替え,データベースバックアップ実施等)と発生時刻が登録されている。
 図7にテンポラリーデータベース39の一例を示す。テンポラリーデータベース39には構成データベース37と同一項目が登録される。
 図8に履歴データベース40の一例を示す。履歴データベース40には、自系について更新情報に対応して実施時刻が登録される。
 図9に運用構成管理メモリ41の一例を示す。運用構成管理メモリ41には、自装置の運用状態として、主系/予備系のいずれかの状態と、運用系/非運用系のいずれかの状態と、データベース状態(マスタ:構成データベース37を使用中/テンポラリー:テンポラリーデータベース39を使用中)と、運用/異常/作業中のいずれかの状態が登録される。
 図10に更新履歴管理メモリ42の一例を示す。更新履歴管理メモリ42には、自系について更新情報に対応して実施時刻が履歴として登録される。
 図11に他系更新履歴管理メモリ43の一例を示す。他系更新履歴管理メモリ43には、他系について更新情報に対応して実施時刻が登録される。
 図12に更新履歴整合用メモリ44の一例を示す。更新履歴整合用メモリ44には、時系列に自系と他系それぞれの更新情報に対応して実施時刻が登録される。
 <OpSシステムの動作>
 正常時には、図13に示すように、主系サーバ23の他系サーバ向け通信部32及び運用構成管理部34は予備系サーバ24に対し他系状態監視電文を送信し、また、予備系サーバ24の他系サーバ向け通信部32及び運用構成管理部34は主系サーバ23に対し他系状態監視電文を送信する。
 図14に示すように、監視用ネットワーク22での障害などにより、一定時間内に他系サーバからの状態監視応答電文を受信できないことが一定回数連続した場合、主系サーバ23,予備系サーバ24それぞれは、他系サーバの状態が異常であると判断する。
 異常状態と判断すると、図14に示すように、主系サーバ23,予備系サーバ24は更新トランザクションもそのまま保持して構成データベース37をロックし(更新禁止、図中、鍵マークで示す)、構成データベース37のデータ内容をテンポラリーデータベース39にコピーし、運用構成管理メモリ41上のデータベース状態を異常状態とする。また、予備系サーバ24では運用構成管理メモリ41上で運用系を設定する。
 これは、レプリケーション設定された構成データベース37を使用すると、両系サーバ23,24にデータ更新トランザクションが溜まってしまい、データのデッドロックの発生を防止するためである。
 これにより、データベースアクセス部33からのデータ参照及びデータ更新はテンポラリーデータベース39に行い、データ更新等の変更情報は履歴データベース40に保持される。なお、監視データベース38はサーバ23,24の運用状態に関わらず、サーバ単体で管理される。
 異常状態では、図15に矢印S1で示すように、主系サーバ23の他系サーバ向け通信部32及び運用構成管理部34は、予備系サーバ24に他系状態監視電文を送信する。
 異常状態から復旧すると、主系サーバ23は予備系サーバ24から状態監視電文の応答を受信できるようになる。主系サーバ23は状態監視電文の応答を受信するとシステム状態復旧と判断し、運用構成変更通知を予備系サーバ24に送信する(矢印S2)。
 予備系サーバ24の他系サーバ向け通信部32及び運用構成管理部34は、運用構成変更通知を受信すると、運用構成管理メモリ41上のデータベース状態を作業中とし、テンポラリーデータベース39及び履歴データベース40をロックする。その後、主系サーバ23に運用構成変更可能通知を送信する(矢印S3)。
 主系サーバ23の他系サーバ向け通信部32及び運用構成管理部34は、運用構成変更可能通知を受信すると、運用構成管理メモリ41上のデータベース状態を切替中とすることで、テンポラリーデータベース39及び履歴データベース40をロックする。その後、予備系サーバ24に対し更新履歴情報の送信要求である運用構成変更実施通知を送信する(矢印S4)。
 次に、図16に示すように、予備系サーバ24の他系サーバ向け通信部32及び運用構成管理部34は、運用構成変更実施通知を受信すると、データベースアクセス部33を通じて、履歴データベース40(24d)から情報を読出し、更新履歴管理メモリ42に展開する。その後、予備系サーバ24は更新履歴管理メモリ42上の情報を主系サーバ23に送信する。
 図17に示すように、主系サーバ23の他系サーバ向け通信部32及び運用構成管理部34は、予備系サーバ24からの更新履歴情報を受信すると、他系更新履歴管理メモリ43に展開する。予備系サーバ24の他系サーバ向け通信部32及び運用構成管理部34は、更新履歴情報を全て主系サーバ23に送信し終えると、運用構成管理メモリ41上の運用状態を非運用系に変更すると共に、データベース状態を通常状態に変更し、運用構成変更完了通知を送信する。この時点で、予備系サーバ24は構成データベース37及び監視データベース38で運用される通常状態になる。
 主系サーバ23の他系サーバ向け通信部32及び運用構成管理部34は、運用構成完了通知を受信すると、データベースアクセス部33を通じて、履歴データベース40から情報を読出し、更新履歴管理メモリ42に展開する。その後、更新履歴管理メモリ42上の情報と他系更新履歴管理メモリ43上の情報を自系列にマージし、更新履歴整合用メモリ44に展開する。
 図18に示すように、主系サーバ23の他系サーバ向け通信部32及び運用構成管理部34は、更新履歴整合用メモリ44の情報に基づいて構成データベース37を更新する。主系サーバ23の構成データベース37が更新されると、レプリケーション機能により、予備系サーバ24の構成データベース37も主系サーバ23の構成データベース37と同期して更新される。このとき、異常状態になる前のトランザクションから予備系サーバ24に伝播される。
 更新履歴整合用メモリ44の全ての情報を構成データベース23a(37)に反映した後、運用構成管理メモリ41上のデータベース状態を通常状態に変更し、通常状態に遷移する。
 その際、予備系サーバ24に運用構成変更正常終了通知を送信し、保守者にもクライアント向け通信部31を通じ、正常運用イベントを通知する。また、更新履歴整合用メモリ44上の情報を構成データベース23a(37)に反映させる更新時に、更新情報の不一致(削除されたデータの更新など)が発生した場合は、エラー情報をクライアント向け通信部31を通じ、保守者に通知する。
 <OpSシステムのフローチャート>
 図19乃至図21は、OpSシステムが実行する処理のフローチャートを示す。図19において、ステップS10でサーバ(主系サーバ23又は予備系サーバ24)は他系サーバに他系の状態監視電文を送信し、ステップS11で一定時間内に他系サーバからの状態監視応答電文を受信できないことが一定回数連続したか否かを判別する。
 一定時間内に他系からの状態監視応答電文を受信できないことが一定回数連続した場合、ステップS12で構成データベース37をロックし、ステップS13で構成データベース37のデータ内容をテンポラリーデータベース39にコピーする。また、ステップS14で運用構成管理メモリ41上のデータベース状態をテンポラリーとしてテンポラリーデータベース39で運用に変更とする。
 次に、ステップS15で自系サーバが運用系であるか否かを運用構成管理メモリ41の設定から判別し、非運用系であればステップS16で自系サーバを運用系に変更する。この変更は運用構成管理メモリ41上で行う。
 また、ステップS17で自系サーバが主系であるか否かを運用構成管理メモリ41の設定から判別する。主系サーバ23であればステップS18で予備系サーバ24に他系の状態監視電文を送信し、ステップS19で一定時間内に予備系サーバ24からの状態監視応答電文を受信できるか否かを判別する。一定時間内に予備系サーバ24からの状態監視応答電文を受信できた場合、図20のステップS21に進む。
 一方、ステップS17で自系サーバが予備系24であれば図20のステップS41に進む。
 図20のステップS21で主系サーバ23は運用構成変更通知を予備系サーバ24に送信する。そして、ステップS22で主系サーバ23は運用構成変更可能通知の受信待ちを行い、ステップS23で運用構成変更可能通知の受信を判別すると、ステップS24に進む。
 ステップS24で主系サーバ23はテンポラリーデータベース39及び履歴データベース40をロックし、ステップS25で運用構成管理メモリ41上のデータベース状態を作業中とする。その後、ステップS26で主系サーバ23は予備系サーバ24に対し更新履歴情報の送信要求である運用構成変更実施通知を送信した後、図21のステップS27に進む。
 図20のステップS41で予備系サーバ24は運用構成変更可能通知の受信待ちを行い、ステップS42で運用構成変更可能通知の受信を判別すると、ステップS43に進む。
 ステップS43で予備系サーバ24はテンポラリーデータベース39及び履歴データベース40をロックし、ステップS44で運用構成管理メモリ41上のデータベース状態を作業中とする。その後、ステップS45で予備系サーバ24は主系サーバ23に対し運用構成変更実施通知を送信する。
 次に、ステップS46で予備系サーバ24は運用構成変更実施通知の受信待ちを行い、ステップS47で運用構成変更実施通知の受信を判別すると、ステップS48に進む。ステップS48で予備系サーバ24は履歴データベース40から情報を読出した後、図21のステップS49に進む。
 図21のステップS27で主系サーバ23は更新履歴情報を受信し、ステップS28で運用構成変更完了通知を受信したか否かを判別する。主系サーバ23は運用構成変更完了通知を受信するまでステップS27で更新履歴情報を受信する。運用構成変更完了通知を受信すると、ステップS29で主系サーバ23は履歴データベース40から情報を読出す。
 そして、ステップS30で主系サーバ23は上記履歴データベース40から読出した更新情報と、予備系サーバ24の履歴データベース40から読出されて予備系サーバ24から送信された更新情報を時系列にマージする。次に、ステップS31で主系サーバ23はマージした更新情報を構成データベース37に反映させる。つまり、構成データベース37を更新する。主系サーバ23の構成データベース37が更新されると、レプリケーション機能により予備系サーバ24の構成データベース37も主系サーバ23の構成データベース37と同期して更新される。
 この後、ステップS32で主系サーバ23は構成データベース37の更新にエラーがあるか否かを判別し、例えば削除されたデータの更新などのエラーがあればステップS33でクライアント21-1~21-mの一部又は全部にエラー通知を行う。
 その後、ステップS34で主系サーバ23は予備系サーバ24に運用構成変更正常終了通知を送信し、ステップS35で主系サーバ23は運用構成管理メモリ41上のデータベース状態を通常状態に更新し、通常状態に遷移して図19のステップS10に進む。
 図21のステップS49で予備系サーバ24は履歴データベース40から読出した情報を主系サーバ23に送信する。この後、更新履歴情報を全て送信し終えると、ステップS50で予備系サーバ24は運用構成変更完了通知を主系サーバ23に送信する。
 次に、ステップS51で予備系サーバ24は運用構成変更正常終了通知の受信待ちを行う。ステップS52で運用構成変更正常終了通知の受信を判別すると、ステップS53で予備系サーバ24は運用構成管理メモリ41上のデータベース状態を通常状態に更新し、通常状態に遷移して図19のステップS10に進む。
 このように、運用系の主系サーバ23がハード故障やアプリケーション異常等でダウンした場合や運用系の主系サーバ23のアクセスができなくなった場合は、主系サーバ23,予備系サーバ24の双方で同期整合されている構成データベース37をそのまま維持する。そして、構成データベース37の内容を複製したテンポラリーデータベース39を使用することで、非運用系の予備系サーバ24が即座に運用系に切替わることができる。また、テンポラリーデータベース39の更新処理を許容することができる。
 そうすることで、主系サーバ23と予備系サーバ24の構成データベース37の整合を維持しつつ両方の系を運用系とすることを許容でき、非運用系の片系運用状態をなくすことができ、監視のみ可能という運用制限を行わずに済む。
 また、テンポラリーデータベース39の更新内容を履歴データベース40に保存することで、両系サーバ23,24の復旧及び通信復旧によるシステム復旧時には履歴データベース40内のデータベース更新情報を、本来の運用系である主系サーバ23の構成データベース37に反映することで、異常時に両サーバ23,24単独で更新された内容が両系サーバ23,24の構成データベース37に反映され、異常時の構成データベース37に対する更新情報を反映した形で、OpSシステムの両系サーバ23,24の構成データベース37の整合を維持することが可能となる。
 なお、上記実施形態では、復旧時に予備系サーバ24の更新履歴情報を主系サーバ23に送信し、主系サーバ23で更新履歴情報をマージして主系サーバ23の構成データベース37を更新しているが、これとは逆に、復旧時に主系サーバ23の更新履歴情報を予備系サーバ24に送信し、予備系サーバ24で更新履歴情報をマージして予備系サーバ24の構成データベース37を更新する構成としても良く、上記実施形態に限定されるものではない。
 上記実施形態では、構成情報記憶手段の一例として構成データベース37を用い、監視情報記憶手段の一例として監視データベース38を用い、他系監視手段の一例として他系サーバ向け通信部32を用い、一時記憶手段の一例としてテンポラリーデータベース39を用い、履歴記憶手段の一例として履歴データベース40を用い、構成情報更新手段の一例として運用構成管理部34を用い、運用系切替え手段の一例として運用構成管理部34を用いている。

Claims (10)

  1.  複数のクライアントと主系及び予備系サーバで構成され、前記主系及び予備系サーバでネットワークを構成する伝送装置の監視制御を行うオペレーションシステムのサーバにおいて、
     他系サーバの状態を監視する他系監視手段と、
     他系サーバの異常検出時に、自系サーバに記録されているネットワーク構成情報の内容をコピーして監視制御に用いる一時記憶手段と、
     前記一時記憶手段に反映される前記クライアントからのネットワーク構成情報の更新を更新履歴情報として保持する履歴記憶手段と、
     他系サーバの復旧時に、前記自系及び他系サーバの履歴記憶手段の更新履歴情報を基に自系サーバ及び他系サーバに記録されたネットワーク構成情報の更新を行う構成情報更新手段と、
    を有することを特徴とするサーバ。
  2.  請求項1記載のサーバにおいて、
     前記他系サーバの異常検出時に、自系サーバの運用情報が非運用系であれば運用系に切替える運用系切替え手段を
    有することを特徴とするサーバ。
  3.  請求項2記載のサーバにおいて、
     前記構成情報更新手段は、前記他系サーバの復旧時に、該他系サーバに履歴記憶手段の更新履歴情報の送信を要求し、該他系サーバから受信した更新履歴情報と自系サーバの履歴記憶手段の更新履歴情報とを時系列にマージした更新履歴情報で自系サーバに記録されたネットワーク構成情報を更新することを特徴とするサーバ。
  4.  請求項3記載のサーバにおいて、
     前記構成情報更新手段は、前記更新履歴情報で自系サーバに記録されたネットワーク構成情報を更新するときにエラーが発生すると、前記複数のクライアントの一部又は全部にエラー通知を行うことを特徴とするサーバ。
  5.  請求項4記載のサーバにおいて、
     前記運用系切替え手段は、前記他系サーバからの送信の要求により自系サーバの履歴記憶手段から読出した更新履歴情報を前記他系サーバに送信した後、前記自系サーバの運用情報が非運用系であれば運用系に切替えることを特徴とするサーバ。
  6.  複数のクライアントと主系及び予備系サーバで構成され、前記主系及び予備系サーバでネットワークを構成する伝送装置の監視制御を行うオペレーションシステムのデータ管理方法において、
     前記主系及び予備系サーバは同期状態を保ってネットワーク構成情報をそれぞれの構成情報記憶手段に保持し、
     前記主系及び予備系サーバは個別に前記ネットワークの監視情報をそれぞれ監視情報記憶手段に保持し、
     前記主系及び予備系サーバは互いに他系サーバの状態を監視し、
     他系サーバの異常検出時に、前記自系及び他系サーバは前記構成情報記憶手段の内容をコピーした一時記憶手段を用いて監視制御を行い、前記クライアントからのネットワーク構成情報の更新を前記一時記憶手段のネットワーク構成情報に反映させると共に更新履歴情報として履歴記憶手段に保持し、
     他系サーバの復旧時に、前記自系サーバは前記自系及び他系サーバの履歴記憶手段の更新履歴情報を基に前記自系サーバの構成情報記憶手段の更新を行うことを特徴とするデータ管理方法。
  7.  請求項6記載のデータ管理方法において、
     前記他系サーバの異常検出時に、自系サーバの運用情報が非運用系であれば運用系に切替えることを特徴とするデータ管理方法。
  8.  請求項7記載のデータ管理方法において、
     前記他系サーバの復旧時に、自系サーバは他系サーバに履歴記憶手段の更新履歴情報の送信を要求し、前記他系サーバから受信した更新履歴情報と自系サーバの履歴記憶手段の更新履歴情報とを時系列にマージした更新履歴情報で自系サーバの構成情報記憶手段を更新することを特徴とするデータ管理方法。
  9.  請求項8記載のデータ管理方法において、
     前記時系列にマージした更新履歴情報で自系サーバの構成情報記憶手段を更新するときにエラーが発生すると、前記複数のクライアントの一部又は全部にエラー通知を行うことを特徴とするデータ管理方法。
  10.  請求項9記載のデータ管理方法において、
     前記他系サーバからの送信の要求により自系サーバの履歴記憶手段から読出した更新履歴情報を前記他系サーバに送信した後、前記自系サーバの運用情報が非運用系であれば運用系に切替えることを特徴とするデータ管理方法。
PCT/JP2009/056529 2009-03-30 2009-03-30 オペレーションシステムのデータ管理方法及びサーバ WO2010116456A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011508099A JP5278540B2 (ja) 2009-03-30 2009-03-30 オペレーションシステムのデータ管理方法及びサーバ
PCT/JP2009/056529 WO2010116456A1 (ja) 2009-03-30 2009-03-30 オペレーションシステムのデータ管理方法及びサーバ
US13/200,711 US8862707B2 (en) 2009-03-30 2011-09-29 Method and apparatus for managing data of operation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/056529 WO2010116456A1 (ja) 2009-03-30 2009-03-30 オペレーションシステムのデータ管理方法及びサーバ

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/200,711 Continuation US8862707B2 (en) 2009-03-30 2011-09-29 Method and apparatus for managing data of operation system

Publications (1)

Publication Number Publication Date
WO2010116456A1 true WO2010116456A1 (ja) 2010-10-14

Family

ID=42935768

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/056529 WO2010116456A1 (ja) 2009-03-30 2009-03-30 オペレーションシステムのデータ管理方法及びサーバ

Country Status (3)

Country Link
US (1) US8862707B2 (ja)
JP (1) JP5278540B2 (ja)
WO (1) WO2010116456A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168623A (ja) * 2011-02-10 2012-09-06 Nec Corp 待機系計算機、クラスタシステム、サービス提供方法およびプログラム
JP2021099606A (ja) * 2019-12-20 2021-07-01 日本電気株式会社 複製データ制御装置、複製データ制御システム、複製データ制御方法および複製データ制御プログラム
JP7541501B2 (ja) 2021-12-13 2024-08-28 APRESIA Systems株式会社 ネットワーク管理システムおよびネットワーク管理プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8451739B2 (en) 2010-04-15 2013-05-28 Silver Spring Networks, Inc. Method and system for detecting failures of network nodes
JP2012014574A (ja) * 2010-07-02 2012-01-19 Fujitsu Ltd ストレージ装置、構成情報保存方法および構成情報保存プログラム
JP6307858B2 (ja) * 2013-11-29 2018-04-11 富士通株式会社 伝送装置、伝送システム、及び監視制御方法
CN107885622B (zh) * 2016-09-30 2021-03-09 伊姆西Ip控股有限责任公司 处理虚拟数据移动器(vdm)故障备援情况
US10671032B2 (en) * 2016-10-17 2020-06-02 Fisher-Rosemount Systems, Inc. Methods and systems for streaming process control data to remote devices
CN106656589B (zh) * 2016-12-13 2019-08-23 武汉船舶通信研究所 一种服务器双机热备份系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11168559A (ja) * 1997-12-03 1999-06-22 Matsushita Electric Ind Co Ltd 呼制御装置及び該呼制御装置を利用する交換機システム
JP2000324121A (ja) * 1999-05-11 2000-11-24 Kyushu Nippon Denki Tsushin System Kk ネットワーク管理システムにおける系切り替え装置および方法
JP2006113840A (ja) * 2004-10-15 2006-04-27 Toshiba Corp 監視制御システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0879246A (ja) 1994-09-02 1996-03-22 Kokusai Denshin Denwa Co Ltd <Kdd> 分散型通信システムおよびその障害回復方法
JP2000215074A (ja) 1999-01-26 2000-08-04 Fujitsu Ltd システムの運用方式及び障害自動復旧方式
JP2006107074A (ja) 2004-10-05 2006-04-20 Fujitsu Ltd 二重化通信制御システム及び通信制御方法
US7821660B2 (en) 2005-03-30 2010-10-26 Ricoh Company, Ltd. System and method for compensating for resource unavailability in an image processing system
US8001079B2 (en) * 2008-02-29 2011-08-16 Double-Take Software Inc. System and method for system state replication
US7996713B2 (en) * 2008-12-15 2011-08-09 Juniper Networks, Inc. Server-to-server integrity checking

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11168559A (ja) * 1997-12-03 1999-06-22 Matsushita Electric Ind Co Ltd 呼制御装置及び該呼制御装置を利用する交換機システム
JP2000324121A (ja) * 1999-05-11 2000-11-24 Kyushu Nippon Denki Tsushin System Kk ネットワーク管理システムにおける系切り替え装置および方法
JP2006113840A (ja) * 2004-10-15 2006-04-27 Toshiba Corp 監視制御システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168623A (ja) * 2011-02-10 2012-09-06 Nec Corp 待機系計算機、クラスタシステム、サービス提供方法およびプログラム
US8977840B2 (en) 2011-02-10 2015-03-10 Nec Corporation Failover to a standby system calculator in the loss of communication between currently-used system calculator and standby system calculator
JP2021099606A (ja) * 2019-12-20 2021-07-01 日本電気株式会社 複製データ制御装置、複製データ制御システム、複製データ制御方法および複製データ制御プログラム
JP7541501B2 (ja) 2021-12-13 2024-08-28 APRESIA Systems株式会社 ネットワーク管理システムおよびネットワーク管理プログラム

Also Published As

Publication number Publication date
JPWO2010116456A1 (ja) 2012-10-11
US8862707B2 (en) 2014-10-14
JP5278540B2 (ja) 2013-09-04
US20120030323A1 (en) 2012-02-02

Similar Documents

Publication Publication Date Title
JP5278540B2 (ja) オペレーションシステムのデータ管理方法及びサーバ
US9116972B2 (en) Information synchronisation
JP5243384B2 (ja) アプリケーションステーションで利用される冗長マネージャ
US7657718B1 (en) Storage automated replication processing
US7607037B1 (en) SAR restart and going home procedures
CN100543690C (zh) 用于管理故障的方法和系统
JP4668763B2 (ja) ストレージ装置のリストア方法及びストレージ装置
KR102142233B1 (ko) 기본 및 보조 데이터베이스를 관리하기 위한 방법, 시스템 및 장치
WO2010015574A1 (en) Maintaining data integrity in data servers across data centers
JP2004295540A (ja) トランザクション同期方法、データベースシステム及びデータベース装置
US7669080B2 (en) Reducing likelihood of data loss during failovers in high-availability systems
JP2004302512A (ja) クラスタコンピューティングシステム、および、そのフェールオーバー方法
KR101605455B1 (ko) 데이터 손실 없는 데이터베이스 리두 로그 이중화 방법 및 그를 위한 시스템
US8522069B2 (en) Process for secure backspacing to a first data center after failover through a second data center and a network architecture working accordingly
JP5900094B2 (ja) データ整合システム、データ整合方法およびデータ整合プログラム
EP1782202A2 (en) Computing system redundancy and fault tolerance
JP2007293821A (ja) データベースシステム管理方法及びデータベースシステム
JP4491167B2 (ja) 通信システムにおける管理装置のバックアップシステム
JP2011054033A (ja) 監視制御装置
JP2004272318A (ja) 系切り替えシステムおよびその処理方法並びにその処理プログラム
US20140297724A1 (en) Network element monitoring system and server
JP2007328595A (ja) サーバシステムおよびそのシステムにおける同期化方法
JP2009058998A (ja) 疎結合システム、待機系排他制御装置、疎結合システムのリカバリ方法、プログラムおよび記憶媒体
JP2013003956A (ja) 故障復旧管理装置、故障復旧管理方法及び故障復旧管理プログラム
JP2007148520A (ja) 情報通知方法及び計算機システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09842966

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011508099

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09842966

Country of ref document: EP

Kind code of ref document: A1