WO2020075587A1 - 故障箇所推定方法及び故障箇所推定装置 - Google Patents
故障箇所推定方法及び故障箇所推定装置 Download PDFInfo
- Publication number
- WO2020075587A1 WO2020075587A1 PCT/JP2019/038892 JP2019038892W WO2020075587A1 WO 2020075587 A1 WO2020075587 A1 WO 2020075587A1 JP 2019038892 W JP2019038892 W JP 2019038892W WO 2020075587 A1 WO2020075587 A1 WO 2020075587A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- network
- connectivity
- switch
- failure
- unit
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0668—Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
Definitions
- the present invention relates to a failure location estimating method and a failure location estimating apparatus.
- service path when a failure occurs in a path that is a physical communication line or a logical communication path (hereinafter collectively referred to as "service path") It is very important to identify if a failure has occurred.
- the arrival confirmation protocol such as ping that uses the Internet Control Message Protocol (ICMP) defined by Non-Patent Documents 1 and 2 is used to detect the failure location. Often attempts to identify (divide).
- ICMP Internet Control Message Protocol
- an object of the present invention is to provide a failure location estimation method and a failure location estimation apparatus that can reduce the number of reachability confirmations performed to estimate the location of a network failure.
- One aspect of the present invention is to divide a network having a plurality of nodes by a division number k (k is an integer of 1 or more) to define a partial network, and to use the partial network as a diagnostic unit network for each diagnostic unit network.
- a first connectivity confirmation step of confirming path connectivity for each combination of end nodes in the diagnostic unit network, and it is determined that there is an abnormality in connectivity in the first connectivity confirmation step for each diagnostic unit network.
- a selection step of selecting some or all of the combinations, and a path for each of the node combinations included in the selected node connection that is the combination selected in the selection step for each diagnostic unit network.
- Second connectivity confirmation step to confirm connectivity, and before A fault location estimation step of estimating a fault location in the network based on connectivity confirmation result in the second connectivity confirmation step, a fault location estimation method with.
- One aspect of the present invention is the above-described failure location estimating method, wherein in the dividing step, the partial networks are defined so that two adjacent partial networks share the same node.
- One aspect of the present invention is the above-described failure location estimating method, wherein in the selecting step, between the end nodes among combinations of the end nodes determined to have an abnormality in connectivity for each of the diagnostic unit networks. The combination with the smallest or largest number of the nodes included in the connection is selected.
- One aspect of the present invention is the above-described failure location estimating method, wherein in the selecting step, the end node determined to have abnormality in connectivity in the first connectivity confirming step for each of the diagnostic unit networks. From the combinations, the two or more combinations that do not share the node are selected.
- One aspect of the present invention is the above-described failure location estimation method, wherein the remaining portion includes at least a portion excluding the selected node connection having the failure location estimated in the failure location estimation step from the diagnostic unit network.
- the network is used as a new diagnostic unit network, and the first connectivity confirmation step, the selection step, the second connectivity confirmation step, and the failure location estimation step are performed.
- One aspect of the present invention is the above-described failure location estimation method, which uses ping or traceroute using Internet Control Notification Protocol (ICMP) to confirm connectivity.
- ICMP Internet Control Notification Protocol
- One aspect of the present invention is the above-described failure location estimating method, wherein the network is configured by a physical node, a logical node, or a combination of a physical node and a logical node.
- One aspect of the present invention is to divide a network having a plurality of nodes by a division number k (k is an integer of 1 or more), to define a partial network, and the partial network as a diagnostic unit network.
- a first connectivity confirmation unit that confirms the connectivity of paths for each combination of end nodes in the diagnostic unit network, and for each diagnostic unit network, the first connectivity confirmation unit determines that the connectivity is abnormal.
- a selection unit that selects a part or all of the combinations, and a path for each combination of the nodes included in the selected node connection that is the combination selected by the selection unit for each of the diagnostic unit networks.
- the second connectivity confirmation unit for confirming the connectivity and the connectivity confirmation in the second connectivity confirmation unit.
- a fault location estimation unit for estimating a fault location in the network based on the result, a fault location estimation device comprising a.
- the present invention makes it possible to reduce the number of reachability confirmations performed to estimate the location of a network failure.
- FIG. 2 is a diagram showing a VLAN switch configuration configured in the physical network shown in FIG. 1. It is a functional block diagram which shows the structure of the failure location estimation apparatus of embodiment. It is a flowchart which shows the process of the failure location estimation apparatus by 1st Embodiment. It is a figure which shows the failure location in the VLAN network by the same embodiment. It is a figure which shows the 1st test result information by the same embodiment. It is a figure which shows the number of nodes and the node of the connection between end nodes which were not able to confirm the connectivity by the embodiment. It is a figure which shows the connection structure of the minimum node connection and the 2nd test result information by the same embodiment.
- FIG. 6 is a diagram showing the number of nodes and the nodes of the end-to-end nodes whose connectivity could not be confirmed in each partial network according to the same embodiment. It is a figure which shows the connection structure of the minimum node connection and the 2nd test result information by the same embodiment. It is a figure which shows the comparison of the 1st test result information and assumption test result information by the embodiment. It is a figure which shows the minimum node connection and the remaining partial network in a partial network by the same embodiment.
- the present embodiment relates to a failure location estimation method for estimating a failure location when a network failure occurs in a communication network, and a failure location estimation device for executing the failure location estimation method.
- the verified network when the service path of the communication network to be verified is MP2MP, the verified network is virtually divided into the number of divisions k (k is an integer of 1 or more). .
- the divided verified network will be referred to as a verified divided network.
- the number of divisions k 1, the verification-divided network remains the verification-target network alone.
- the connectivity confirmation is performed between the end nodes of each subdivided network under verification by the arrival confirmation protocol, and the end node with the smallest number of passing nodes is selected from the combination of end nodes determined to be abnormal. (Hereinafter, referred to as minimum node connection) is selected. Furthermore, the connectivity confirmation is performed by the arrival confirmation protocol for each combination of all the nodes in the minimum node connection, and the presence / absence of a failure location is determined, and if there is a failure, the failure location is identified.
- the arrival confirmation protocol for example, ping or traceroute using Internet Control Notification Protocol (ICMP) can be used.
- ICMP Internet Control Notification Protocol
- FIG. 1 is a diagram showing an overall configuration of a physical network according to the embodiment of the present invention.
- the physical network to be managed / monitored shown in the figure has a plurality of Ethernet (registered trademark) switch nodes (hereinafter referred to as switches) N1 to N15.
- the switches N1 to N15 are collectively referred to as the switch N.
- the switch N is an example of a physical node.
- the physical network shown in the figure is composed of rings R1 to R5 in which a plurality of switches N are connected in a ring shape.
- the switches N1 to N4 are connected in a ring shape.
- the switches N3 and N5 to N8 are connected in a ring shape.
- the switches N6, N13, N14 are connected in a ring shape.
- the switches N4 and N9 to N12 are connected in a ring shape.
- the switches N11, N15, N16 are connected in a ring shape.
- the block port B1 is provided in the switch N1 that belongs to the ring R1 and is connected to another network.
- the block port B2 is a switch N3 belonging to the rings R1 and R2, the block port B3 is a switch N6 belonging to the rings R2 and R3, and the block port B4 is a switch N4 belonging to the rings R1 and R4.
- B5 is provided in the switch R11 belonging to the ring R4 and the ring R5.
- Physical network is a base network on which various logical networks can be constructed.
- One or more logical networks which are virtual networks, can be built on the physical network.
- An example of a logical network is a VLAN network.
- FIG. 2 is a diagram showing a VLAN switch configuration (hereinafter referred to as a VLAN network) constructed in the physical network shown in FIG.
- the service path is set to be MP2MP.
- Some nodes or all nodes in the physical network are related to the logical network, but some nodes are related to the VLAN network shown in FIG.
- Related nodes include, for example, a node that can be a source or a destination in a logical network, and a node that relays communication between these nodes.
- UNI-A is for switch N8
- UNI-B is for switch N6
- UNI-C is for switch N14
- UNI-D is for switch N12
- UNI-E is for switch N11
- UNI-F is for switch N15
- UNI-. G is provided in the switch N10.
- FIG. 1 shows UNI-A to G in the physical network. In the following description, it is assumed that the VLAN network shown in FIG.
- the selection rule of the selection node connection basically the same procedure is used regardless of whether the minimum / maximum is used. Therefore, in order to simplify the explanation, in the following, when selecting the minimum one (the minimum node Connection) will be described as an example.
- FIG. 3 is a functional block diagram showing the configuration of the failure location estimating device 1 according to the present embodiment, and only the functional blocks related to the present embodiment are extracted and shown.
- the failure location estimation device 1 includes a communication section 11, a storage section 12, a failure detection section 13, a division section 14, a first test execution section 15, a selection section 16, a second test execution section 17, and a failure location estimation section 18.
- the communication unit 11 transmits / receives data to / from other devices such as nodes that configure the network.
- a node is a device that communicates with other nodes.
- the communication unit 11 communicates with each switch N of the VLAN network.
- the storage unit 12 stores various information including network configuration information, assumed test result information, and test result information.
- the network configuration information indicates the network configuration of the network to be verified.
- the network configuration information is information indicating the configuration of the physical network shown in FIG. 1 and the switch configuration of the VLAN network shown in FIG.
- the failure location estimating device 1 may acquire these pieces of network configuration information from a node that constructs a network, a device related to the network, a system, or the like via the communication unit 11 and store the network configuration information in the storage unit 12. Further, when a change occurs in the network, the storage unit 12 may store information that reflects the content thereof at any time.
- the assumed test result information indicates the result (pattern) of the connectivity test expected when a failure occurs for each failure occurrence location.
- the test result information is the first test result information indicating the test result of the connectivity test performed by the first test implementation unit 15 and the second test result indicating the test result of the connectivity test performed by the second test implementation unit 17. Including information and.
- the failure detection unit 13 detects a failure in the network or a suspected failure (possible failure). For example, the failure detection unit 13 receives a notification from the node, a device that manages the network, or the like that a failure or a suspected failure of the network has been detected. Alternatively, the failure detection unit 13 may detect the failure or the suspected failure by not receiving a signal expected to be transmitted from the network.
- the dividing unit 14 sets the detected failure or suspected failure network as the verification target network.
- the network to be verified is the whole or a part of the physical network or the whole or a part of the logical network, and is determined based on the detected failure or the content of the failure suspected.
- the network to be verified may be composed of physical nodes, logical nodes, or a combination of physical and logical nodes.
- the virtual nodes are logical nodes.
- the node is a logical node.
- These logical nodes may be connected to physical nodes or other logical nodes.
- the entire VLAN network shown in FIG. 2 is the network to be verified.
- the first test execution unit 15 refers to the network configuration information to identify the end node of the partial network.
- the first test execution unit 15 performs a connectivity test for each end node, which is a different combination of two end nodes, for each partial network, and writes the first test result information indicating the test result in the storage unit 12.
- the selection unit 16 refers to the first test result information, and among the end nodes whose connectivity could not be confirmed (the connection confirmation was NG), the one having the smallest number of nodes included in the connection between the end nodes. Is selected as the minimum node connection.
- the second test execution unit 17 performs the connectivity test on all combinations of nodes included in the minimum node connection selected by the selection unit 16, and writes the second test result information indicating the test result in the storage unit 12.
- the failure location estimation unit 18 estimates the failure location based on the second test result information.
- the failure point estimation unit 18 determines that a failure has occurred at the estimated failure point when the assumed test result information when the failure at the node at the estimated failure point and the first test result information match. .
- FIG. 4 is a flowchart showing the processing of the failure location estimating device 1 of this embodiment.
- the processing shown in FIG. 5 will be described with reference to FIGS.
- the first test execution unit 15 refers to the network configuration information to identify the end node of the VLAN network (step S102).
- the end node is a node having only one connection with other nodes except the UNI in the target diagnostic unit network. The end node may be determined by a method other than this.
- the first test execution unit 15 performs a ping test for executing ping between end nodes, and writes first test result information indicating the result in the storage unit 12 (step S103).
- the ping test between the switch Ni and the switch Nj i, j is an integer of 1 or more, i ⁇ j
- an echo request message is transmitted to the switch Nj to the switch Ni
- an echo reply is received.
- FIG. 5 is a diagram showing failure points in the VLAN network shown in FIG.
- a failure or a failure (collectively referred to as a failure) occurs in a connection port with the switch N3 among the connection ports of the switch N5 will be described as an example.
- the first test implementation unit 15 extracts the switches N8, N10, N14, and N15 as end nodes of the VLAN network.
- FIG. 6 is a diagram showing the first test result information.
- This first test result information indicates the result of the first test execution unit 15 pinging between the end nodes of the VLAN network shown in FIG. 5 in step S103.
- the first test execution unit 15 uses the switches N8, N10, N14, and N15 to generate all combinations of two end nodes.
- the first test execution unit 15 instructs the switch N of the end node to perform ping between the end nodes for each combination, acquires the result, and stores the first test result information indicating the acquired result in the storage unit. Write to 12.
- the starting point is the switch N that transmitted the echo request, and the target is the switch N that is the destination of the echo request.
- the selection unit 16 refers to the network configuration information and the first test result information, and among the end nodes whose connectivity test is NG, the number of nodes existing between the end nodes is the smallest.
- the end nodes are selected (step S104).
- FIG. 7 is a diagram showing the number and nodes of end-to-end node connections whose connectivity could not be confirmed (NG).
- NG connectivity could not be confirmed
- the selection unit 16 selects the switch N14-switch N10 as the minimum node connection among the four end-to-end node connections that have become connectivity check NG.
- the second test execution unit 17 executes the ping test between all the nodes related to the minimum node connection selected in step S104, and the second test result information indicating the result is stored in the storage unit. 12 (step S105).
- the failure location estimating unit 18 refers to the second test result information and identifies a temporary failure location (step S106).
- the failure point estimation unit 18 determines that a failure has occurred at the temporary failure point when the first test result information matches the assumed test result information when the failure at the temporary failure point node occurs. A judgment is made (step S107).
- FIG. 8 is a diagram showing the connection configuration of the minimum node connection and the second test result information.
- the upper part of the figure shows the connection configuration between the switch N14 and the switch N10, which is the minimum node connection selected in step S104.
- the second test execution unit 17 uses the switches N14, N6, N5, N3, N4, N12, N11, and N10 that form between the switch N14 and the switch N10 to generate all combinations of two nodes.
- the second test execution unit 17 carries out a ping test between nodes for each of those combinations, and generates second test result information shown in the lower side of the figure.
- the failure point estimating unit 18 estimates that a failure has occurred in the connection between the switch N5 and the switch N3 based on this second test result information. That is, regarding the switch group (switches N14, N6, N5) between the switch N14 and the switch N5, which are end nodes, the connectivity can be confirmed between them, but from the switch N3 to the other end node. The connectivity confirmation with the switch group (switches N3, N4, N12, N11, N10) between certain switches N10 is NG. Also, regarding the switch group from the switch N3 to the switch N10, the connectivity check can be performed between them, but the connectivity check with the switch group from the switch N14 to the switch N5 is NG. Therefore, it can be inferred that a failure has occurred in the connection between the switch N5 and the switch N3. The failure point estimation unit 18 determines that the area between the switch N5 and the switch N3 is a temporary failure point.
- FIG. 9 is a diagram showing a comparison between the first test result information and the assumed test result information.
- FIG. 9A is a result of performing ping between the end nodes in step S103, which is the same as the first test result information shown in FIG.
- FIG. 9B is a diagram showing assumed test result information assumed when a failure occurs in the connection between the switch N5 and the switch N3.
- a virtual test may be performed on the connection relation model between the end nodes after the failure occurs.
- the connection relationship between the end nodes is modeled in advance, and the assumed test result information corresponding to the failure pattern in the model is created, and the assumed test result information of the corresponding failure pattern is selected according to the temporary failure location. You may.
- the failure location estimation unit 18 can infer that there is no other failure location because the first test result information shown in FIG. 9A and the assumed test result information shown in FIG. 9B match. .
- the failure point estimating unit 18 determines that a failure has occurred in the connection between the switch N5 and the switch N3, which is the temporary failure point.
- FIG. 10 is a flowchart showing the processing of the failure location estimating device 1 of this embodiment.
- the processing shown in FIG. 11 will be described with reference to FIGS.
- the failure detection unit 13 of the failure location estimation device 1 detects a failure or a suspected failure of the VLAN network (VLAN-NW) (step S201).
- the dividing unit 14 divides the VLAN network indicated by the network configuration information into k partial networks (step S202).
- the first test execution unit 15 refers to the network configuration information to identify the end node of each partial network (step S203).
- the first test execution unit 15 performs a ping test in which a ping is performed between end nodes for each partial network, and writes first test result information indicating the result in the storage unit 12 (step S204).
- FIG. 11 is a diagram showing division of a VLAN network.
- the division unit 14 divides the VLAN network into two partial networks VL1 and VL2 so as to share the switch N3 and the switch N4.
- the end nodes of the partial network VL1 are the switches N8, N14, N4, and the end nodes of the partial network VL2 are the switches N3, N15, N10.
- the first test execution unit 15 performs ping between the switch N8 and the switch N14, the switch N8 and the switch N4, and the switch N8 and the switch N14.
- the first test execution unit 15 performs ping between the switch N3 and the switch N15, the switch N3 and the switch N10, and the switch N15 and the switch N10.
- FIG. 12 is a diagram showing the first test result information.
- 12A is the first test result information of the partial network VL1
- FIG. 12B is the first test result information of the partial network VL2.
- connectivity can be confirmed between end nodes of all combinations.
- the connectivity confirmation between the switch N8 and the switch N4 and between the switch N14 and the switch N4 is NG.
- the selection unit 16 refers to the network configuration information and the first test result information, and among the end nodes whose connectivity test is NG, the number of nodes existing between the end nodes is the smallest.
- the end nodes are selected (step S205).
- FIG. 13 is a diagram showing the number of nodes and the nodes in the end-to-end node connection whose connectivity could not be confirmed.
- the number of end-to-end node connections whose connectivity confirmation is NG is two in the partial network VL1 and zero in the partial network VL2, and hence the dividing process for the partial network VL2 is unnecessary thereafter.
- the switch N8 and the switch N4 and the switch N14 and the switch N4 are the switch N8 and the switch N4 and the switch N14 and the switch N4, as described above.
- the selection unit 16 selects the connection between the switch N14 and the switch N4 as the minimum node connection among the connection between the end nodes which has become the two connectivity confirmation NG.
- the second test execution unit 17 executes the ping test between all the nodes related to the minimum node connection selected in step S205, and the second test result information indicating the result is stored in the storage unit. 12 (step S206).
- the failure location estimation unit 18 refers to the second test result information and identifies a temporary failure location (step S207).
- the failure location estimation unit 18 determines that a failure has occurred at the temporary failure location when the first test result information matches the assumed test result information when the failure occurred at the temporary failure location (step). S208).
- FIG. 14 is a diagram showing the connection configuration of the minimum node connection and the second test result information.
- the connection configuration between the switch N14 and the switch N4, which is the minimum node connection selected in step S205, is shown on the upper side of the figure.
- the second test execution unit 17 uses the switches N14, N6, N5, N3, and N4 that form the switch N14-switch N4 to generate all combinations of two nodes.
- the second test execution unit 17 performs a ping test between the nodes for each of those combinations, and generates second test result information shown in the lower side of the figure.
- the failure point estimation unit 18 estimates that a failure has occurred in the connection between the switch N5 and the switch N3, and sets it as a temporary failure point.
- FIG. 15 is a diagram showing a comparison between the first test result information of the partial network VL1 and the assumed test result information.
- FIG. 15A is a result of performing ping between the end nodes of the partial network VL1 in step S204, and is the same diagram as the first test result information shown in FIG. 12A.
- FIG. 15B is a diagram showing assumed test result information of the partial network VL1 that is assumed when a failure occurs only in the connection between the switch N5 and the switch N3. Since the failure location estimation unit 18 matches the first test result information of the partial network VL1 shown in FIG. 15A with the expected test result information of the partial network VL1 shown in FIG. 15B, another failure occurs. It can be inferred that the location does not exist. The failure point estimating unit 18 determines that a failure has occurred in the connection between the switch N5 and the switch N3, which is the temporary failure point.
- an upper limit of the number of nodes belonging to one partial network is set, and the number of nodes is within that number.
- FIG. 16 is a diagram showing the number of times of ping execution in the first embodiment and the second embodiment. It can be seen that in both the first embodiment and the second embodiment, the number of ping executions is significantly reduced compared to the case where pings are executed for all nodes.
- FIG. 17 is a flow chart showing the processing of the failure location estimating device 1 of this embodiment. The process shown in FIG. 17 will be described with reference to FIGS.
- the first test execution unit 15 refers to the network configuration information to identify the end node of the VLAN network (step S302).
- the first test execution unit 15 performs a ping test in which ping is performed between the end nodes, and writes first test result information indicating the result in the storage unit 12 (step S303).
- FIG. 18 is a diagram showing failure points in the VLAN network shown in FIG.
- a failure or a failure has occurred in the connection port with the switch N6 (described as failure / fault A), and among the connection ports of the switch N16, the switch N15
- failure / failure B An example will be described in which a failure or a failure has occurred in the connection port (described as failure / failure B).
- the first test implementation unit 15 extracts the switches N8, N10, N14, and N15 as the end nodes of the VLAN network.
- FIG. 19 is a diagram showing the first test result information.
- This first test result information indicates the result of the first test execution unit 15 pinging the extracted end nodes in step S303.
- the connectivity check is performed between the switch N8-switch N14, switch N8-switch N15, switch N8-switch N10, switch N14-switch N15, and the five end nodes between switch N15-switch N10. It is NG.
- the selection unit 16 refers to the network configuration information and the first test result information, and among the end nodes whose connectivity test is NG, the number of nodes existing between the end nodes is the smallest.
- the end nodes are selected (step S304).
- FIG. 20 is a diagram showing the number of nodes and the nodes in the end-node connection for which the connectivity could not be confirmed (NG).
- the end-node connections that can be the minimum node connections are the switch N8-switch N14 and the switch N15-switch N10.
- switch N There is no common node (switch N) in the connection between the end nodes. That is, the connection between the end nodes between the switch N8 and the switch N14 and the connection between the end nodes between the switch N15 and the switch N10 are in a disjoint relationship (a relationship having no common node). Therefore, the first test execution unit 15 selects both of them as the minimum node connection.
- the switch N8-switch N14 is described as the minimum node connection 1
- the switch N15-N10 is described as the minimum node connection 2.
- the second test implementation unit 17 performs a ping test between all the nodes related to the minimum node connection for each of the minimum node connection 1 and the minimum node connection 2 selected in step S304.
- the second test result information indicating the result is written in the storage unit 12 (step S305).
- the failure location estimation unit 18 refers to the second test result information and identifies a temporary failure location (step S306).
- the failure point estimation unit 18 determines that a failure has occurred at the temporary failure point when the first test result information matches the assumed test result information when the failure at the temporary failure point node occurs. A judgment is made (step S307).
- FIG. 21 is a diagram showing the connection configuration of the minimum node connections 1 and 2 and the second test result information.
- the left side of FIG. 21 (a) shows the connection configuration between the end nodes of the minimum node connection 1, and the right side of FIG. 21 (a) shows the second test result information of the minimum node connection 1.
- the left side of FIG. 21 (b) shows the connection configuration between the end nodes of the minimum node connection 2, and the right side of FIG. 21 (b) shows the second test result information of the minimum node connection 2.
- the failure point estimation unit 18 estimates that a failure has occurred in the connection between the switch N7 and the switch N6 based on the second test result information shown in FIG. Further, the failure point estimation unit 18 estimates that a failure has occurred in the connection between the switch N15 and the switch N16 based on the second test result information shown in FIG. 21 (b). The failure location estimating unit 18 determines that the area between the switch N15 and the switch N16 and the area between the switch N7 and the switch N6 are temporary failure locations.
- FIG. 22 is a diagram showing a comparison between the first test result information and the assumed test result information.
- FIG. 22A shows a result of pinging between end nodes in step S303, which is the same as the first test result information shown in FIG.
- FIG. 22B is a diagram showing assumed test result information that is assumed when a failure occurs in the connection between the switch N7 and the switch N6 and the connection between the switch N15 and the switch N16.
- the failure location estimating unit 18 can infer that there is no other failure location because the first test result information shown in FIG. 22A and the assumed test result information shown in FIG. 22B match. .
- the failure point estimation unit 18 determines that a failure has occurred in the connection between the switch N7 and the switch N6 and the connection between the switch N15 and the switch N16, which are temporary failure points.
- ping arrival confirmation protocol
- two failures occur in one partial network.
- FIG. 23 is a flowchart showing the processing of the failure location estimating device 1 of this embodiment.
- the processing shown in FIG. 22 will be described with reference to FIGS.
- the failure detection unit 13 of the failure location estimation device 1 detects a failure or a suspected failure of the VLAN network (VLAN-NW) (step S401).
- the dividing unit 14 divides the VLAN network indicated by the network configuration information into k partial networks to form a diagnostic unit network (step S402).
- the first test execution unit 15 refers to the network configuration information to identify the end node of each partial network (step S403).
- the first test execution unit 15 performs a ping test for performing a ping between end nodes for each partial network, and writes the first test result information indicating the result in the storage unit 12 (step S404).
- FIG. 24 is a diagram showing division of a VLAN network.
- a failure or a failure has occurred in the connection port with the switch N6 (described as failure / fault A), and among the connection ports of the switch N16, the switch N15
- failure / failure B An example will be described in which a failure or a failure has occurred in the connection port (described as failure / failure B).
- the division unit 14 divides the VLAN network into two partial networks VL1 and VL2 so as to share the switch N3 and the switch N4.
- the end nodes of the partial network VL1 are the switches N8, N14, N4, and the end nodes of the partial network VL2 are the switches N3, N15, N10.
- the first test execution unit 15 performs ping between the switch N8 and the switch N14, the switch N8 and the switch N4, and the switch N8 and the switch N14 in the partial network VL1, and the switch N3, the switch N15, and the switch N3 in the partial network VL2. Then, ping is performed between the switch N10 and the switch N15 and the switch N10.
- FIG. 25 is a diagram showing the first test result information.
- 25A shows the first test result information of the partial network VL1
- FIG. 25B shows the first test result information of the partial network VL2.
- connectivity can be confirmed between end nodes of all combinations.
- the connectivity confirmation is NG between the switch N8 and the switch N14, between the switch N8 and the switch N4, and between the switch N14 and the switch N4.
- the selection unit 16 refers to the network configuration information and the first test result information, and among the end nodes whose connectivity test is NG, the number of nodes existing between the end nodes is the smallest. Between the end nodes is selected (step S405).
- FIG. 26 is a diagram showing the number of nodes and the nodes of the end-to-end node connection whose connectivity could not be confirmed. Since the connection between the end nodes for which the connectivity confirmation is NG is zero in the partial network VL2, the isolation process for the partial network VL2 is not necessary thereafter. In the partial network VL1, the number of nodes of the three end nodes connected between the switch N8 and the switch N4, between the switch N8 and the switch N14, and between the switch N14 and the switch N4 for which the connectivity cannot be confirmed is 6, 4 and 5, respectively. . Therefore, the selection unit 16 selects the connection between the end nodes between the switch N8 and the switch N14 as the minimum node connection.
- the second test execution unit 17 executes the ping test between all the nodes related to the minimum node connection selected in step S405, and the second test result information indicating the result is stored in the storage unit. 12 (step S406).
- the failure location estimation unit 18 refers to the second test result information and identifies a temporary failure location (step S407).
- the failure location estimation unit 18 compares the first test result information with the assumed test result information when a failure occurs in the temporary failure location (step S408).
- FIG. 27 is a diagram showing the connection configuration of the minimum node connection and the second test result information.
- the upper part of the figure shows the connection configuration between the switch N8 and the switch N14 which is the minimum node connection selected in step S405, and the lower part of the figure shows the second test result information of the minimum node connection. ing.
- the failure point estimation unit 18 estimates that a failure has occurred in the connection between the switch N7 and the switch N6, and estimates that it is a temporary failure point.
- FIG. 28 is a diagram showing a comparison between the first test result information of the partial network VL1 and the assumed test result information.
- FIG. 28A shows a result of performing ping between the end nodes of the partial network VL1 in step S404, which is the same as the first test result information shown in FIG. 25A.
- FIG. 28B is a diagram showing assumed test result information of the partial network VL1 that is assumed when a failure occurs only in the connection between the switch N7 and the switch N6.
- the failure point estimation unit 18 compares these and, because they do not match, estimates that there is another failure point.
- the dividing unit 14 extracts the remaining partial network including the portion excluding the already selected minimum node connection in the partial network VL1 (step S409).
- the failure location estimating device 1 performs the same processing as steps S403 to S408 using the remaining partial network as a diagnostic unit network. Therefore, the first test execution unit 15 performs a ping test in which ping is performed between the end nodes of the remaining partial network, and writes the first test result information indicating the result in the storage unit 12 (step S410).
- the selecting unit 16 refers to the network configuration information and the first test result information, and among the end nodes of the remaining partial network whose connectivity test is NG, between the end nodes having the smallest number of nodes among the end nodes. Is selected as the minimum node connection (step S411).
- FIG. 29 is a diagram showing the minimum node connection and the remaining partial network in the partial network VL1. Since the connectivity between the switch N6 and the switch N14 has been confirmed by pinging the minimum node connection selected in step S405, it is possible not to include it in the remaining partial network. However, here, the remaining partial network is configured so that the number of switches shared with the minimum node connection is two. Further, the end node of the remaining partial network is between the switch N14 and the switch N4, and the ping execution result is the connectivity confirmation NG. Therefore, the selection unit 16 sets the switch N14-switch N4 to the minimum node connection. As described above, in this embodiment, since the remaining partial network is not branched, the remaining partial network and the minimum node connection are the same.
- the second test execution unit 17 executes the ping test between all the nodes related to the minimum node connection selected in step S411, and the second test result information indicating the result is stored in the storage unit 12 (Step S412).
- the failure point estimation unit 18 refers to the second test result information written in step S412 to identify a temporary failure point (step S413).
- the failure point estimating unit 18 compares the first test result information with the expected test result information when a failure occurs in the node of the temporary failure point, and if they match, the temporary failure point is finally determined. The result is determined (step S414).
- FIG. 30 is a diagram showing the connection configuration of the minimum node connection in the remaining partial network and the second test result information.
- the upper side of FIG. 30 shows the connection configuration between the end nodes of the minimum node connection (between the switch N14 and the switch N4) in the remaining partial network.
- the lower side of FIG. 30 is the second test result information indicating the result of pinging all the combinations of the switches N14, N6, N5, N3, N4 forming the minimum node connection.
- the failure point estimation unit 18 estimates that a failure has occurred in the connection between the switch N5 and the switch N3, and estimates it as a temporary failure point.
- FIG. 31 is a diagram showing a comparison between the first test result information of the partial network VL1 and the assumed test result information.
- FIG. 31A is a result of performing ping between the end nodes of the partial network VL1 in step S404, and is the same diagram as the first test result information shown in FIG. 25A.
- FIG. 31B shows assumed test result information of the partial network VL1 that is assumed when a failure occurs only in the connection between the switch N7 and the switch N6 and the connection between the switch N5 and the switch N3.
- the failure point estimation unit 18 compares these and, because they match each other, estimates that there is no other failure point.
- FIG. 32 is a diagram showing the number of times of ping execution in the third embodiment and the fourth embodiment. It can be seen that in both the third embodiment and the fourth embodiment, the number of ping executions is significantly reduced compared to the case where pings are executed for all nodes.
- the network configuration information is acquired in advance during normal operation (before failure detection) and stored in the storage unit 12, but the network configuration information about the network is detected after failure detection. It may be acquired. In that case, the network configuration information is acquired between step S101 and step S102, between step S201 and step S202, between step S301 and step S302, and between step S401 and step S402.
- the case where there is only one logical network and the number of objects to be verified is one has been described as an example, but a plurality of networks may be the networks to be verified.
- the failure location estimating device 1 applies the above-described embodiment to each network to be verified.
- a method may be used in which the number of nodes forming the network to be verified is small or large.
- the number of executions of the arrival confirmation protocol for the network to be verified is suppressed, and the procedure for confirming the connectivity is simplified, as compared with the related art, and there are advantageous effects.
- the failure point estimation device 1 described above includes a CPU (Central Processing Unit), a memory, an auxiliary storage device, and the like connected by a bus, and functions as a device having the above functions by executing a diagnostic program. All or part of each function of the failure location estimation device 1 may be realized by using hardware such as ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array). .
- the diagnostic program may be recorded in a computer-readable recording medium.
- the computer-readable recording medium is, for example, a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in a computer system.
- the diagnostic program may be transmitted via a telecommunication line.
- the failure location estimating device includes the dividing section, the first connectivity checking section, the selecting section, the second connectivity checking section, and the failure location estimating section.
- the division unit defines a partial network obtained by dividing a network having a plurality of nodes by a division number k (k is an integer of 1 or more).
- the network is a physical network, a logical node, or a physical network or a logical network configured by a combination of a physical node and a logical node.
- the division unit defines the partial networks such that two adjacent partial networks share the same node two or more.
- the first connectivity check unit uses the partial network as a diagnostic unit network, and for each diagnostic unit network, checks the path connectivity for each combination of end nodes in the diagnostic unit network.
- the selecting unit selects, for each diagnostic unit network, some or all of the combinations of end nodes determined to have abnormal connectivity according to a predetermined rule, and makes the selected node connection.
- the predetermined rule is a rule of selecting a combination having the smallest number or the largest number of nodes passing between the end nodes among the combinations of the end nodes determined to have abnormal connectivity.
- the predetermined rule is a rule of selecting a plurality of combinations that are disjoint.
- the second connectivity checker checks the path connectivity for each combination of nodes included in the selected node connection for each diagnostic unit network.
- the failure point estimation unit estimates the failure point in the network based on the result of confirming the connectivity of each combination of these nodes.
- the failure location estimation unit newly creates a residual partial network including at least a portion excluding the selected node connection having the estimated failure location from the diagnostic unit network. Diagnostic unit network.
- the first connectivity confirming unit, the selecting unit, the second connectivity confirming unit, and the failure location estimating unit perform the above processing for the new diagnostic unit network.
- the failure location estimating device may be implemented using one information processing device, or may be implemented using a plurality of information processing devices communicably connected via a network.
- each functional unit included in the failure location estimation device may be distributed and implemented in the plurality of information processing devices.
- the node may have a part or all of the functions of the failure location estimating device.
- It can be used for communication networks.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
故障箇所推定装置は、ネットワークを1以上に分割した部分ネットワークを定め、部分ネットワークごとに端ノードの組合せそれぞれについてパスの接続性を確認する。故障箇所推定装置は、部分ネットワークごとに、接続性に異常ありと判断された端ノードの組合せのうち一部又は全ての組合せを選択し、選択された端ノードの組合せである選択ノード接続に含まれるノードの組合せそれぞれについてパスの接続性を確認する。故障箇所推定装置は、ノードの組合せそれぞれの接続性の確認結果に基づいてネットワークにおける故障箇所を推定する。
Description
本発明は、故障箇所推定方法及び故障箇所推定装置に関する。
通信ネットワークにおいて、物理的な通信回線や論理的な通信路であるパス(以下では総称して「サービス・パス」と記載)に障害が発生したときに、ネットワーク内の何処で(どの装置で)故障が生じているのかを特定することは非常に重要である。ルータやスイッチ(ノード)により構成されるネットワークでは、非特許文献1、2により規定されるインターネット制御通知プロトコル(ICMP:Internet Control Message Protocol)を利用するping等の到達確認プロトコルを用いて故障箇所の特定(切り分け)を試みることが多い。
pingでは、ある装置からICMPのecho requestメッセージを対象装置に向けて送信し、対象装置からecho replyメッセージを受け取ることで到達性を確認する。pingを実施する2台の装置の組合せを変え、それらの結果を比較することで故障が発生した箇所を特定する。echo requestやecho replyのpingメッセージは、サービス・パスと同じ物理経路を共有するように送受信される。そのため、通常状態(正常時)には機能させることは殆どなく、障害が発生した際に人が手作業でコマンドを装置に打ち込み機能させる(使用する)ことが一般的である。しかしながら、人がコマンドを装置に打ち込み、得られた結果を基に判断を行うことから故障箇所の切り分け作業を誤ることが多い。特に、ネットワークの規模が大きくなり、装置が多くなる場合にその傾向が強くなる。そこで、pingによる故障箇所の切り分け作業をプログラム化(/自動化/機械化)することが試みられている(例えば、特許文献1参照)。
RFC792, "Internet Control Message Protocol", 1981年
RFC4443, "Internet Control Message Protocol(ICMPv6) for the Internet Protocol Version 6 (IPv6) Specification", 2006年
pingによる故障箇所の切り分け作業をプログラム化する場合、サービス・パスと装置の関係を全て考慮し、予め故障箇所とpingの結果を関連付けておく必要がある。この関連付け(以下、パターンと表記)は複雑かつその数は膨大である。この際、サービス・パスがPoint-to-Point(P2P)のみである場合、切り分けをすべきノードの組合せ(以下、被検証ネットワークと記載)は比較的単純である。一方、サービス・パスがMultiPoint-to-MultiPoint(MP2MP)のような場合、被検証ネットワークの構成は複雑になり、より切り分けに必要な到達確認プロトコルの実施数は多くなる。そのため、自動化が難しくなったり、計算負荷が大きくなったりするという問題があった。
上記事情に鑑み、本発明は、ネットワーク障害の発生箇所を推定するために行う到達性確認の実施数を低減することができる故障箇所推定方法及び故障箇所推定装置を提供することを目的としている。
本発明の一態様は、複数のノードを有するネットワークを分割数k(kは1以上の整数)で分割した部分ネットワークを定める分割ステップと、前記部分ネットワークを診断単位ネットワークとし、診断単位ネットワークごとに、当該診断単位ネットワークにおける端ノードの組合せそれぞれについてパスの接続性を確認する第一接続性確認ステップと、前記診断単位ネットワークごとに、前記第一接続性確認ステップにおいて接続性に異常ありと判断された前記組合せのうち一部又は全ての組合せを選択する選択ステップと、前記診断単位ネットワークごとに、前記選択ステップにおいて選択された前記組合せである選択ノード接続に含まれる前記ノードの組合せそれぞれについてパスの接続性を確認する第二接続性確認ステップと、前記第二接続性確認ステップにおける接続性の確認結果に基づいて前記ネットワークにおける故障箇所を推定する故障箇所推定ステップと、を有する故障箇所推定方法である。
本発明の一態様は、上述の故障箇所推定方法であって、前記分割ステップにおいては、隣接する2つの前記部分ネットワークにおいて同一の前記ノードを2以上共有するように前記部分ネットワークを定める。
本発明の一態様は、上述の故障箇所推定方法であって、前記選択ステップにおいては、前記診断単位ネットワークごとに、接続性に異常ありと判断された前記端ノードの組合せのうち前記端ノード間の接続に含まれる前記ノードの数が最も少ない又は最も多い組合せを選択する。
本発明の一態様は、上述の故障箇所推定方法であって、前記選択ステップにおいては、前記診断単位ネットワークごとに、前記第一接続性確認ステップにおいて接続性に異常ありと判断された前記端ノードの組合せから、前記ノードを共有しない2以上の前記組合せを選択する。
本発明の一態様は、上述の故障箇所推定方法であって、前記診断単位ネットワークから、前記故障箇所推定ステップにおいて推定された前記故障箇所を有する前記選択ノード接続を除いた部分を少なくとも含む残存部分ネットワークを新たな診断単位ネットワークとし、前記第一接続性確認ステップ、前記選択ステップ、前記第二接続性確認ステップ、及び、前記故障箇所推定ステップを行う。
本発明の一態様は、上述の故障箇所推定方法であって、接続性の確認に、インターネット制御通知プロトコル(ICMP)を利用したping又はtracerouteを用いる。
本発明の一態様は、上述の故障箇所推定方法であって、前記ネットワークは、物理的なノード、論理的なノード、又は、物理的なノードと論理的なノードとの組合せで構成される。
本発明の一態様は、複数のノードを有するネットワークを分割数k(kは1以上の整数)で分割した部分ネットワークを定める分割部と、前記部分ネットワークを診断単位ネットワークとし、診断単位ネットワークごとに、当該診断単位ネットワークにおける端ノードの組合せそれぞれについてパスの接続性を確認する第一接続性確認部と、前記診断単位ネットワークごとに、前記第一接続性確認部において接続性に異常ありと判断された前記組合せのうち一部又は全ての組合せを選択する選択部と、前記診断単位ネットワークごとに、前記選択部において選択された前記組合せである選択ノード接続に含まれる前記ノードの組合せそれぞれについてパスの接続性を確認する第二接続性確認部と、前記第二接続性確認部における接続性の確認結果に基づいて前記ネットワークにおける故障箇所を推定する故障箇所推定部と、を備える故障箇所推定装置である。
本発明により、ネットワーク障害の発生箇所を推定するために行う到達性確認の実施数を低減することが可能となる。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。本実施形態は、通信ネットワークにおいてネットワーク障害が発生した際の障害部位を推定する故障箇所推定方法と、その故障箇所推定方法を実行する故障箇所推定装置に関する。
本実施形態の故障箇所推定方法では、被検証ネットワークとなる通信ネットワークのサービス・パスがMP2MPである場合に、その被検証ネットワークを分割数k(kは1以上の整数)に仮想的に分割する。以下では、分割された被検証ネットワークを、被検証分割ネットワークと記載する。なお、分割数k=1の場合、被検証分割ネットワークは、被検証ネットワーク単体のままである。
続いて、全ての被検証分割ネットワークに対して到達確認プロトコルにより接続性を確認した結果に基づいて、被検証ネットワークの故障箇所を特定する。この際、最初に、被検証分割ネットワークそれぞれの端ノード間に対して到達確認プロトコルによる接続性確認を実施し、異常と判断された端ノードの組合せのうち、通過するノード数が最も小さい端ノードの組合せ(以下、最小ノード接続と記載)を選択する。更に、最小ノード接続における全ノードの組合せそれぞれに対して到達確認プロトコルによる接続性確認を実施し、故障箇所の有無の判定と、故障があれば故障箇所の特定を行う。なお、ある被検証分割ネットワークにおいて不接続となる端ノードの組合せが存在しなければ、当該被検証分割ネットワークではそれ以上の接続性確認は不要となるため、それ以降の切り分けプロセスに組み込まない。上記の方法により、故障箇所を特定に必要な、被検証ネットワークにおける到達確認プロトコルの実施数を抑制する。到達確認プロトコルには、例えば、インターネット制御通知プロトコル(ICMP)を利用したping又はtracerouteを用いることができる。
図1は、本発明の実施形態における物理ネットワークの全体構成を示す図である。同図に示す管理・監視対象の物理ネットワークは、複数台のイーサネット(登録商標)・スイッチ・ノード(以下、スイッチと記載)N1~N15を有する。なお、スイッチN1~N15を総称して、スイッチNと記載する。スイッチNは、物理ノードの一例である。
同図に示す物理ネットワークは、複数のスイッチNがリング状に接続されたリングR1~R5から構成される。リングR1ではスイッチN1~N4がリング状に接続されている。リングR2ではスイッチN3、N5~N8がリング状に接続されている。リングR3ではスイッチN6、N13、N14がリング状に接続されている。リングR4ではスイッチN4、N9~N12がリング状に接続されている。リングR5ではスイッチN11、N15、N16がリング状に接続されている。
各リングRi(i=1,2,3,4,5)には、フレームがそのリング内でループしないように、ブロックポートBiが設定されており、通信経路は一意に決まっている。ブロックポートB1は、リングR1に属し、かつ、他のネットワークと接続されるスイッチN1に設けられる。ブロックポートB2は、リングR1及びリングR2に属するスイッチN3に、ブロックポートB3は、リングR2及びリングR3に属するスイッチN6に、ブロックポートB4は、リングR1及びリングR4に属するスイッチN4に、ブロックポートB5はリングR4及びリングR5に属するスイッチN11に設けられる。
物理ネットワークは、様々な論理ネットワークを構築可能なベースとなるネットワークである。物理ネットワーク上には、仮想ネットワークである論理ネットワークが1以上構築され得る。論理ネットワークの一例は、VLANネットワークである。物理ネットワークに対して、スイッチNへの設定変更を行うことで、「VLANによるサービス・パスの構築」や「UNIの構築」が行われる。
図2は、図1に示す物理ネットワークにおいて構築されるVLANのスイッチ構成(以下、VLANネットワークと記載)を示す図である。同図に示すVLANネットワークは、MP2MPとなるようにサービス・パスが設定されている。論理ネットワークには、物理ネットワークにおける一部のノード又は全ノードが関係するが、同図に示すVLANネットワークは、一部のノードが関係する。関係するノードとは、例えば、論理ネットワークにおいて発又は着となり得るノードと、それらノード間の通信を中継するノードとを含む。同図に示すVLANネットワークは、ノード数Mが12(M=12)であり、スイッチN8、N10、N14、N15が端ノードである。
さらに、VLANネットワークには、7つのUNI(User Network Interface)-A~Gが設定される。UNI-AはスイッチN8に、UNI-BはスイッチN6に、UNI-CはスイッチN14に、UNI-DはスイッチN12に、UNI-EはスイッチN11に、UNI-FはスイッチN15に、UNI-GはスイッチN10に設けられる。図1には、物理ネットワークにおけるUNI-A~Gが示されている。以下の説明では、同図に示すVLANネットワークの構成を前提とする。また、選択ノード接続の選択規則においては、基本的に最小/最大のどちらを用いても同様の手順となることから、説明を容易にするため、以下では最小のものを選択する場合(最小ノード接続)を例にして説明する。
図3は、本実施形態による故障箇所推定装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。故障箇所推定装置1は、通信部11、記憶部12、障害検知部13、分割部14、第一試験実施部15、選択部16、第二試験実施部17及び故障箇所推定部18を備える。
通信部11は、ネットワークを構成する各ノードなどの他の装置とデータの送受信を行う。ノードとは、他のノードと通信を行う装置である。本実施形態では、通信部11は、VLANネットワークの各スイッチNと通信する。
記憶部12は、ネットワーク構成情報と、想定試験結果情報と、試験結果情報とを含む各種情報を記憶する。ネットワーク構成情報は、被検証ネットワークのネットワーク構成を示す。例えば、ネットワーク構成情報は、図1に示す物理ネットワークの構成、及び、図2に示すVLANネットワークのスイッチ構成を示す情報である。故障箇所推定装置1は、これらのネットワーク構成情報を、通信部11を介して、ネットワークを構築するノード又はネットワークに関する装置、システムなどから取得して、記憶部12に記憶してもよい。また、ネットワークに変更が生じた場合には、その内容を随時反映した情報を記憶部12に記憶してもよい。想定試験結果情報は、障害発生箇所別に、障害発生時に想定される接続性試験の結果(パターン)を示す。試験結果情報は、第一試験実施部15が実施した接続性試験の試験結果を示す第一試験結果情報と、第二試験実施部17が実施した接続性試験の試験結果を示す第二試験結果情報とを含む。
障害検知部13は、ネットワークの障害又は障害被疑(障害の可能性があること)を検知する。例えば、障害検知部13は、ノード、又は、ネットワークを管理する装置などから、ネットワークの障害又は障害被疑を検知した旨の通知を受ける。あるいは、障害検知部13は、ネットワークからの送信が期待される信号を受信しないことなどにより、障害又は障害被疑を検出してもよい。
分割部14は、検知された障害又は障害被疑に関するネットワークを被検証ネットワークとする。被検証ネットワークは、物理ネットワークの全体又は一部、あるいは、論理ネットワークの全体又は一部であり、検知された障害又は障害被疑の内容に基づいて定められる。分割部14は、被検証ネットワークをあらかじめ設定された分割数k(kは1以上の整数)の部分ネットワークに分割し、診断単位ネットワークとする。つまり、kは、分割後の部分ネットワーク数を表す。k=1の場合、被検証ネットワーク全体を部分ネットワークとする。分割部14は、k≧2の場合、隣接する2つの部分ネットワークにおいて、同一のノードを2以上共有するように部分ネットワークを定めてもよい。
なお、被検証ネットワークは、物理的なノードで構成されてもよく、論理的なノードで構成されてもよく、物理的なノードと論理的なノードとの組合せで構成されてもよい。例えば、サーバ仮想化技術により1つのサーバ上で複数の仮想サーバが動作するなど、1つの物理ノードが仮想的に複数のノードとして動作する場合、それら仮想的なノードはそれぞれ論理ノードである。あるいは、ネットワークの仮想化により、複数の装置が連携して一つのノードとして動作する場合、そのノードは論理ノードである。これら論理ノードは、物理ノード又は他の論理ノードと接続され得る。本実施形態では、図2に示すVLANネットワーク全体を被検証ネットワークとする。
第一試験実施部15は、ネットワーク構成情報を参照して部分ネットワークの端ノードを特定する。第一試験実施部15は、部分ネットワークごとに、2つの端ノードの異なる組合せである端ノード間それぞれに対して接続性試験を行い、試験結果を示す第一試験結果情報を記憶部12に書き込む。選択部16は、第一試験結果情報を参照し、接続性が確認できなかった(接続性確認NGであった)端ノード間のうち、端ノード間の接続に含まれるノード数が最も少ないものを最小ノード接続として選択する。第二試験実施部17は、選択部16が選択した最小ノード接続に含まれるノードの全ての組合せに対して接続性試験を行い、試験結果を示す第二試験結果情報を記憶部12に書き込む。故障箇所推定部18は、第二試験結果情報に基づいて故障箇所を推定する。故障箇所推定部18は、推定した故障箇所のノードに障害が発生したときの想定試験結果情報と、第一試験結果情報とが一致する場合に、推定した故障箇所に故障が発生したと判断する。
以下の第1の実施形態~第4の実施形態において、故障箇所推定装置1を用いた故障箇所推定方法の詳細を説明する。
(第1の実施形態)
本実施形態では、VLANネットワークを分割せずに(分割数k=1)、到達確認プロトコルを用いて故障箇所を特定する。本実施形態は、故障箇所が一箇所の場合である。
本実施形態では、VLANネットワークを分割せずに(分割数k=1)、到達確認プロトコルを用いて故障箇所を特定する。本実施形態は、故障箇所が一箇所の場合である。
図4は、本実施形態の故障箇所推定装置1の処理を示すフロー図である。図5~図9を用いて、同図に示す処理を説明する。故障箇所推定装置1の障害検知部13がVLANネットワーク(VLAN-NW)の障害又は障害被疑を検出する(ステップS101)。分割部14は、k=1のため、VLANネットワーク全体を診断単位ネットワークとする。
第一試験実施部15は、ネットワーク構成情報を参照して、VLANネットワークの端ノードを特定する(ステップS102)。端ノードとは、対象となる診断単位ネットワークのうち、UNIを除く他ノードとの接続を1つのみ持つノードである。なお、これ以外の方法により、端ノードを決めてもよい。
第一試験実施部15は、ネットワーク構成情報を参照して、VLANネットワークの端ノードを特定する(ステップS102)。端ノードとは、対象となる診断単位ネットワークのうち、UNIを除く他ノードとの接続を1つのみ持つノードである。なお、これ以外の方法により、端ノードを決めてもよい。
第一試験実施部15は、端ノード間でpingを実施させるping試験を行い、その結果を示す第一試験結果情報を記憶部12に書き込む(ステップS103)。なお、スイッチNiとスイッチNjとの間のping試験とは(i、jは1以上の整数、i≠j)、スイッチNiに対してスイッチNjにecho requestメッセージを送信し、echo replyを受信したか否かの結果を通知するよう指示する処理と、スイッチNjに対してスイッチNiへecho requestメッセージを送信し、echo replyを受信したか否かの結果を通知するよう指示する処理との両方又は一方を行うことである。
図5は、図2に示すVLANネットワークにおける故障箇所を示す図である。本実施形態では、スイッチN5が有する接続ポートのうちスイッチN3との接続ポートに障害又は故障(総称して故障とも記載)が発生している場合を例に説明する。ステップS102において、第一試験実施部15は、VLANネットワークの端ノードとして、スイッチN8、N10、N14及びN15を抽出する。
図6は、第一試験結果情報を示す図である。この第一試験結果情報は、ステップS103において、第一試験実施部15が、図5に示すVLANネットワークの端ノード間でpingを実施した結果を示す。具体的には、第一試験実施部15は、スイッチN8、N10、N14、N15を用いて2つの端ノードからなる全ての組合せを生成する。第一試験実施部15は、それら組合せ毎に、端ノード間でpingを実施するよう端ノードのスイッチNに指示してその結果を取得し、取得した結果を示す第一試験結果情報を記憶部12に書き込む。起点は、echo requestを送信したスイッチNであり、対象は、そのecho requestの宛先のスイッチNである。「〇」は接続性が確認できたことを示し、「×」は接続性が確認できなかった(NGとなった)ことを示す。なお、接続性が確認できたこと、接続性が確認できなかったことを表す設定値に0又は1を用いるなど、別の表現を用いてもよい。同図に示すように、スイッチN8-スイッチN15、スイッチN8-スイッチN10、スイッチN14-スイッチN15、スイッチN14-スイッチN10間の接続性確認がNGである。
図4のフロー図において、選択部16は、ネットワーク構成情報及び第一試験結果情報を参照し、接続性試験がNGであった端ノード間のうち、端ノード間に存在するノード数が最も少ない端ノード間を選択する(ステップS104)。
図7は、接続性が確認できなかった(NGであった)端ノード間接続のノード数及びノードを示す図である。スイッチN8-スイッチN15間には、スイッチN8、N7、N6、N5、N3、N4、N12、N11、N16、N15の10ノードがある。スイッチN8-スイッチN10間には、スイッチN8、N7、N6、N5、N3、N4、N12、N11、N10の9ノードがある。スイッチN14-スイッチN15間には、スイッチN14、N6、N5、N3、N4、N12、N11、N16、N15の9ノードがある。スイッチN14-スイッチN10間には、スイッチN14、N6、N5、N3、N4、N12、N11、N10の8ノードがある。よって、選択部16は、4つの接続性確認NGとなった端ノード間接続のうち、スイッチN14-スイッチN10間を最小ノード接続として選択する。
図4のフロー図において、第二試験実施部17は、ステップS104で選択された最小ノード接続に関係する全てのノード間でping試験を実施し、その結果を示す第二試験結果情報を記憶部12に書き込む(ステップS105)。故障箇所推定部18は、第二試験結果情報を参照し、仮の故障箇所を特定する(ステップS106)。故障箇所推定部18は、第一試験結果情報と、仮の故障箇所のノードに障害が発生したときの想定試験結果情報とが一致する場合に、仮の故障箇所に故障が発生したとの最終判断を行う(ステップS107)。
図8は、最小ノード接続の接続構成及び第二試験結果情報を示す図である。同図の上側には、ステップS104において選択された最小ノード接続であるスイッチN14-スイッチN10間の接続構成を示している。第二試験実施部17は、スイッチN14-スイッチN10間を構成するスイッチN14、N6、N5、N3、N4、N12、N11、N10を用いて、2つのノードからなる全ての組合せを生成する。第二試験実施部17は、それら組合せ毎に、ノード間のping試験を実施し、同図の下側に示す第二試験結果情報を生成する。
故障箇所推定部18は、この第二試験結果情報に基づいて、スイッチN5とスイッチN3との間の接続に故障が発生したと推測する。すなわち、端ノードであるスイッチN14からスイッチN5までの間のスイッチ群(スイッチN14、N6、N5)については、これらの間では接続性確認ができているが、スイッチN3からもう一方の端ノードであるスイッチN10までの間のスイッチ群(スイッチN3、N4、N12、N11、N10)とは接続性確認がNGである。また、スイッチN3からスイッチN10までの間のスイッチ群については、これらの間では接続性確認ができているが、スイッチN14からスイッチN5までの間のスイッチ群とは接続性確認がNGである。よって、スイッチN5とスイッチN3の間の接続に故障が発生したと推測できる。故障箇所推定部18は、スイッチN5とスイッチN3との間を仮の故障箇所と判断する。
図9は、第一試験結果情報と想定試験結果情報との比較を示す図である。図9(a)は、ステップS103において端ノード間でpingを実施した結果であり、図6に示す第一試験結果情報と同じ図である。図9(b)は、スイッチN5とスイッチN3との間の接続に故障が発生した場合に想定される想定試験結果情報を示す図である。図9(b)に示すような想定試験結果情報を得るためは、故障発生後に端ノード間の接続関係モデルに対して仮想的な試験を実施すればよい。または、事前に端ノード間の接続関係をモデル化し、そのモデルにおける故障パターンに応じた想定試験結果情報を作成しておき、仮の故障箇所に応じて該当する故障パターンの想定試験結果情報を選択してもよい。故障箇所推定部18は、図9(a)に示す第一試験結果情報と、図9(b)に示す想定試験結果情報とが一致することから、他に故障箇所が存在しないことが推測できる。故障箇所推定部18は、仮の故障箇所としていたスイッチN5とスイッチN3との間の接続に故障が発生したと判断する。
(第2の実施形態)
本実施形態では、VLANネットワークを2つの部分ネットワークに分割し(分割数k=2)、到達確認プロトコルを用いて故障箇所を特定する。本実施形態では、故障箇所が一箇所の場合である。
本実施形態では、VLANネットワークを2つの部分ネットワークに分割し(分割数k=2)、到達確認プロトコルを用いて故障箇所を特定する。本実施形態では、故障箇所が一箇所の場合である。
図10は、本実施形態の故障箇所推定装置1の処理を示すフロー図である。図11~図15を用いて、同図に示す処理を説明する。故障箇所推定装置1の障害検知部13は、VLANネットワーク(VLAN-NW)の障害又は障害被疑を検出する(ステップS201)。分割部14は、ネットワーク構成情報が示すVLANネットワークをk個の部分ネットワークに分割する(ステップS202)。第一試験実施部15は、ネットワーク構成情報を参照して、部分ネットワークそれぞれの端ノードを特定する(ステップS203)。第一試験実施部15は、部分ネットワーク毎に端ノード間でpingを実施させるping試験を行い、その結果を示す第一試験結果情報を記憶部12に書き込む(ステップS204)。
図11は、VLANネットワークの分割を示す図である。本実施形態では、同図に示すように、スイッチN5が有する接続ポートのうちのスイッチN3との接続ポートに故障が発生した場合を例に説明する。ステップS202において、分割部14は、スイッチN3とスイッチN4を共有するように、VLANネットワークを2つの部分ネットワークVL1及び部分ネットワークVL2に分割する。
部分ネットワークVL1の端ノードはスイッチN8、N14、N4であり、部分ネットワークVL2の端ノードはスイッチN3、N15、N10である。第一試験実施部15は、部分ネットワークVL1では、スイッチN8とスイッチN14、スイッチN8とスイッチN4、スイッチN8とスイッチN14間でpingを実施する。さらに、第一試験実施部15は、部分ネットワークVL2では、スイッチN3とスイッチN15、スイッチN3とスイッチN10、スイッチN15とスイッチN10間でpingを実施する。
図12は、第一試験結果情報を示す図である。図12(a)は、部分ネットワークVL1の第一試験結果情報であり、図12(b)は、部分ネットワークVL2の第一試験結果情報である。部分ネットワークVL2では、全ての組合せの端ノード間で接続性が確認できている。一方、部分ネットワークVL1では、スイッチN8-スイッチN4間、及び、スイッチN14-スイッチN4間で接続性確認がNGである。
図10のフロー図において、選択部16は、ネットワーク構成情報及び第一試験結果情報を参照し、接続性試験がNGであった端ノード間のうち、端ノード間に存在するノード数が最も少ない端ノード間を選択する(ステップS205)。
図13は、接続性が確認できなかった端ノード間接続のノード数及びノードを示す図である。接続性確認がNGとなった端ノード間接続は部分ネットワークVL1では2つ、部分ネットワークVL2ではゼロなので、これ以降は部分ネットワークVL2についての切り分けプロセスは不要である。また、部分ネットワークVL1において接続性確認がNGとなった2つの端ノード間は、上述したように、スイッチN8-スイッチN4間と、スイッチN14-スイッチN4間である。スイッチN8-スイッチN4間接続には、スイッチN8、N7、N6、N5、N3、N4の6台のノードがあり、スイッチN14-スイッチN4間には、スイッチN14、N6、N5、N3、N4の5台のノードがある。よって、選択部16は、2つの接続性確認NGとなった端ノード間接続のうち、スイッチN14-スイッチN4間を最小ノード接続として選択する。
図10のフロー図において、第二試験実施部17は、ステップS205で選択された最小ノード接続に関係する全てのノード間でping試験を実施し、その結果を示す第二試験結果情報を記憶部12に書き込む(ステップS206)。故障箇所推定部18は、第二試験結果情報を参照し、仮の故障箇所を特定する(ステップS207)。故障箇所推定部18は、第一試験結果情報と、仮の故障箇所に障害が発生したときの想定試験結果情報とが一致する場合に、仮の故障箇所に故障が発生したと判断する(ステップS208)。
図14は、最小ノード接続の接続構成及び第二試験結果情報を示す図である。同図の上側に、ステップS205において選択された最小ノード接続であるスイッチN14-スイッチN4間の接続構成を示している。第二試験実施部17は、スイッチN14-スイッチN4間を構成するスイッチN14、N6、N5、N3、N4を用いて、2つのノードからなる全ての組合せを生成する。第二試験実施部17は、それら組合せ毎にノード間のping試験を実施し、同図の下側に示す第二試験結果情報を生成する。故障箇所推定部18は、この第二試験結果情報に基づいて、スイッチN5とスイッチN3との間の接続に故障が発生したと推測し、仮の故障箇所とする。
図15は、部分ネットワークVL1の第一試験結果情報と想定試験結果情報との比較を示す図である。図15(a)は、ステップS204において部分ネットワークVL1の端ノード間でpingを実施した結果であり、図12(a)に示す第一試験結果情報と同じ図である。図15(b)は、スイッチN5とスイッチN3との間の接続のみに故障が発生した場合に想定される部分ネットワークVL1の想定試験結果情報を示す図である。故障箇所推定部18は、図15(a)に示す部分ネットワークVL1の第一試験結果情報と、図15(b)に示す部分ネットワークVL1の想定試験結果情報とが一致することから、他に故障箇所が存在しないことが推測できる。故障箇所推定部18は、仮の故障箇所としていたスイッチN5とスイッチN3との間の接続に故障が発生したと判断する。
なお、分割部14が被検証ネットワークを部分ネットワークへ分割するときの分割位置の決定方法としては、例えば、(1)1つの部分ネットワークに属するノード数の上限を設定し、その数以内となるように分割していく、(2)被検証ネットワークをノード数で等分する、(3)運用者が事前に設定した分割ポイントに従って分割する、などがある。
図16は、第1の実施形態及び第2の実施形態におけるping実施回数を示す図である。
第1の実施形態及び第2の実施形態ともに、全てのノードに対してpingを実施した場合と比較して、大幅にping実施回数が低く抑えられていることが判る。
第1の実施形態及び第2の実施形態ともに、全てのノードに対してpingを実施した場合と比較して、大幅にping実施回数が低く抑えられていることが判る。
(第3の実施形態)
本実施形態では、VLANネットワークを分割せずに(分割数k=1)、到達確認プロトコル(ping)を用いて多重(二重)故障箇所を特定する。本実施形態では、最小ノード接続が複数(2つ)存在する。
本実施形態では、VLANネットワークを分割せずに(分割数k=1)、到達確認プロトコル(ping)を用いて多重(二重)故障箇所を特定する。本実施形態では、最小ノード接続が複数(2つ)存在する。
図17は、本実施形態の故障箇所推定装置1の処理を示すフロー図である。図18~図22を用いて、図17に示す処理を説明する。故障箇所推定装置1の障害検知部13がVLANネットワーク(VLAN-NW)の障害又は障害被疑を検出する(ステップS301)。分割部14は、k=1のため、VLANネットワーク全体を診断単位ネットワークとする。第一試験実施部15は、ネットワーク構成情報を参照して、VLANネットワークの端ノードを特定する(ステップS302)。第一試験実施部15は、端ノード間でpingを実施させるping試験を行い、その結果を示す第一試験結果情報を記憶部12に書き込む(ステップS303)。
図18は、図2に示すVLANネットワークにおける故障箇所を示す図である。本実施形態では、スイッチN7が有する接続ポートのうちスイッチN6との接続ポートに障害又は故障が発生しており(障害/故障Aと記載)、かつ、スイッチN16が有する接続ポートのうちスイッチN15との接続ポートに障害又は故障が発生している(障害/故障Bと記載)場合を例に説明する。ステップS302において、第一試験実施部15は、VLANネットワークの端ノードとして、スイッチN8、N10、N14及びN15を抽出する。
図19は、第一試験結果情報を示す図である。この第一試験結果情報は、ステップS303において、第一試験実施部15が、抽出した端ノード間でpingを実施した結果を示す。同図に示すように、スイッチN8-スイッチN14、スイッチN8-スイッチN15、スイッチN8-スイッチN10、スイッチN14-スイッチN15、及び、スイッチN15-スイッチN10間の5つの端ノード間で接続性確認がNGである。
図17のフロー図において、選択部16は、ネットワーク構成情報及び第一試験結果情報を参照し、接続性試験がNGであった端ノード間のうち、端ノード間に存在するノード数が最も少ない端ノード間を選択する(ステップS304)。
図20は、接続性が確認できなかった(NGであった)端ノード間接続のノード数及びノードを示す図である。接続性確認ができなかった5つの端ノード間接続のうち、最小ノード接続となり得る端ノード間接続は、スイッチN8-スイッチN14間と、スイッチN15-スイッチN10間の2つであり、これらを構成する端ノード間接続には、共通するノード(スイッチN)が存在しない。つまり、スイッチN8-スイッチN14間の端ノード間接続と、スイッチN15-スイッチN10間の端ノード間接続は、互いに素の関係(共通のノードを持たない関係)にある。よって、第一試験実施部15は、これらを共に最小ノード接続として選択する。以下では、スイッチN8-スイッチN14間を最小ノード接続1と記載し、スイッチN15-N10間を最小ノード接続2と記載する。
図17のフロー図において、第二試験実施部17は、ステップS304で選択された最小ノード接続1と最小ノード接続2のそれぞれについて、最小ノード接続に関係する全てのノード間でping試験を実施し、その結果を示す第二試験結果情報を記憶部12に書き込む(ステップS305)。故障箇所推定部18は、第二試験結果情報を参照し、仮の故障箇所を特定する(ステップS306)。故障箇所推定部18は、第一試験結果情報と、仮の故障箇所のノードに障害が発生したときの想定試験結果情報とが一致する場合に、仮の故障箇所に故障が発生したとの最終判断を行う(ステップS307)。
図21は、最小ノード接続1、2それぞれの最小ノード接続の接続構成及び第二試験結果情報を示す図である。図21(a)の左側は、最小ノード接続1の端ノード間の接続構成を、図21(a)の右側は、最小ノード接続1の第二試験結果情報を示している。図21(b)の左側は、最小ノード接続2の端ノード間の接続構成を、図21(b)の右側は、最小ノード接続2の第二試験結果情報を示している。
故障箇所推定部18は、図21(a)に示す第二試験結果情報に基づいて、スイッチN7とスイッチN6との間の接続に故障が発生したと推測する。さらに、故障箇所推定部18は、図21(b)に示す第二試験結果情報に基づいて、スイッチN15とスイッチN16との間の接続に故障が発生したと推測する。故障箇所推定部18は、スイッチN15とスイッチN16との間、及び、スイッチN7とスイッチN6との間を仮の故障箇所と判断する。
図22は、第一試験結果情報と想定試験結果情報との比較を示す図である。図22(a)は、ステップS303において端ノード間でpingを実施した結果であり、図19に示す第一試験結果情報と同じ図である。図22(b)は、スイッチN7とスイッチN6との間の接続、及び、スイッチN15とスイッチN16との間の接続に故障が発生した場合に想定される想定試験結果情報を示す図である。故障箇所推定部18は、図22(a)に示す第一試験結果情報と、図22(b)に示す想定試験結果情報とが一致することから、他に故障箇所が存在しないことが推測できる。故障箇所推定部18は、仮の故障箇所としていたスイッチN7とスイッチN6との間の接続、及び、スイッチN15とスイッチN16との間の接続に故障が発生したと判断する。
(第4の実施形態)
本実施形態では、VLANネットワークを2つの部分ネットワークに分割し(分割数k=2)、到達確認プロトコル(ping)を用いて多重(二重)故障箇所を特定する。本実施形態は、一方の部分ネットワークに2つの故障が発生する場合である。
本実施形態では、VLANネットワークを2つの部分ネットワークに分割し(分割数k=2)、到達確認プロトコル(ping)を用いて多重(二重)故障箇所を特定する。本実施形態は、一方の部分ネットワークに2つの故障が発生する場合である。
図23は、本実施形態の故障箇所推定装置1の処理を示すフロー図である。図22~図31を用いて、同図に示す処理を説明する。故障箇所推定装置1の障害検知部13は、VLANネットワーク(VLAN-NW)の障害又は障害被疑を検出する(ステップS401)。分割部14は、ネットワーク構成情報が示すVLANネットワークをk個の部分ネットワークに分割し、診断単位ネットワークとする(ステップS402)。第一試験実施部15は、ネットワーク構成情報を参照して、部分ネットワークそれぞれの端ノードを特定する(ステップS403)。第一試験実施部15は、部分ネットワーク毎に端ノード間でpingを実施させるping試験を行い、その結果を示す第一試験結果情報を記憶部12に書き込む(ステップS404)。
図24は、VLANネットワークの分割を示す図である。本実施形態では、スイッチN7が有する接続ポートのうちスイッチN6との接続ポートに障害又は故障が発生しており(障害/故障Aと記載)、かつ、スイッチN16が有する接続ポートのうちスイッチN15との接続ポートに障害又は故障が発生している(障害/故障Bと記載)場合を例に説明する。ステップS402において、分割部14は、スイッチN3とスイッチN4を共有するように、VLANネットワークを2つの部分ネットワークVL1及び部分ネットワークVL2に分割する。
部分ネットワークVL1の端ノードはスイッチN8、N14、N4であり、部分ネットワークVL2の端ノードはスイッチN3、N15、N10である。第一試験実施部15は、部分ネットワークVL1では、スイッチN8とスイッチN14、スイッチN8とスイッチN4、スイッチN8とスイッチN14間でpingを実施し、部分ネットワークVL2では、スイッチN3とスイッチN15、スイッチN3とスイッチN10、スイッチN15とスイッチN10間でpingを実施する。
図25は、第一試験結果情報を示す図である。図25(a)は、部分ネットワークVL1の第一試験結果情報であり、図25(b)は、部分ネットワークVL2の第一試験結果情報である。部分ネットワークVL2では、全ての組合せの端ノード間で接続性が確認できている。一方、部分ネットワークVL1では、スイッチN8-スイッチN14間、スイッチN8-スイッチN4間、スイッチN14-スイッチN4間で接続性確認がNGである。
図23のフロー図において、選択部16は、ネットワーク構成情報及び第一試験結果情報を参照し、接続性試験がNGであった端ノード間のうち、端ノード間に存在するノード数が最も少ない端ノード間を選択する(ステップS405)。
図26は、接続性が確認できなかった端ノード間接続のノード数及びノードを示す図である。接続性確認がNGとなった端ノード間接続は部分ネットワークVL2ではゼロなので、これ以降は部分ネットワークVL2についての切り分けプロセスは不要である。部分ネットワークVL1において接続性確認ができなかったスイッチN8-スイッチN4間、スイッチN8-スイッチN14間、スイッチN14-スイッチN4間の3つの端ノード間接続のノード数はそれぞれ6、4、5である。よって、選択部16は、スイッチN8-スイッチN14間の端ノード間接続を最小ノード接続として選択する。
図23のフロー図において、第二試験実施部17は、ステップS405で選択された最小ノード接続に関係する全てのノード間でping試験を実施し、その結果を示す第二試験結果情報を記憶部12に書き込む(ステップS406)。故障箇所推定部18は、第二試験結果情報を参照し、仮の故障箇所を特定する(ステップS407)。故障箇所推定部18は、第一試験結果情報と、仮の故障箇所に障害が発生したときの想定試験結果情報とを比較する(ステップS408)。
図27は、最小ノード接続の接続構成及び第二試験結果情報を示す図である。同図の上側に、ステップS405で選択された最小ノード接続であるスイッチN8-スイッチN14間の接続構成を示しており、同図の下側に、その最小ノード接続の第二試験結果情報を示している。故障箇所推定部18は、同図の下側に示す第二試験結果情報に基づいて、スイッチN7とスイッチN6との間の接続に故障が発生したと推測し、仮の故障箇所と推定する。
図28は、部分ネットワークVL1の第一試験結果情報と想定試験結果情報との比較を示す図である。図28(a)は、ステップS404において部分ネットワークVL1の端ノード間でpingを実施した結果であり、図25(a)に示す第一試験結果情報と同じ図である。図28(b)は、スイッチN7とスイッチN6との間の接続のみに故障が発生した場合に想定される部分ネットワークVL1の想定試験結果情報を示す図である。故障箇所推定部18は、これらを比較し、両者が不一致であることから他に故障箇所が存在すると推測する。
図23のフロー図において、分割部14は、部分ネットワークVL1のうち、すでに選択した最小ノード接続を除いた部分を含む残存部分ネットワークを抽出する(ステップS409)。故障箇所推定装置1は、残存部分ネットワークを診断単位ネットワークとして、ステップS403~ステップS408と同様の処理を行う。そこで、第一試験実施部15は、残存部分ネットワークの端ノード間でpingを実施させるping試験を行い、その結果を示す第一試験結果情報を記憶部12に書き込む(ステップS410)。選択部16は、ネットワーク構成情報及び第一試験結果情報を参照し、接続性試験がNGであった残存部分ネットワークの端ノード間のうち、端ノード間に存在するノード数が最も少ない端ノード間を最小ノード接続として選択する(ステップS411)。
図29は、部分ネットワークVL1における最小ノード接続と残存部分ネットワークを示す図である。ステップS405において選択された最小ノード接続に対するping実施により、スイッチN6とスイッチN14間の接続性は確認できているため、残存部分ネットワークに含めないことも可能である。しかし、ここでは、最小ノード接続と共有するスイッチを2つとするように残存部分ネットワークとした。また、残存部分ネットワークの端ノードはスイッチN14-スイッチN4間であり、ping実施結果は接続性確認NGである。よって、選択部16は、スイッチN14-スイッチN4を最小ノード接続とする。このように、本実施形態では、残存部分ネットワークが枝分かれしていないため、残存部分ネットワークと、最小ノード接続とが同一となっている。
図23のフロー図において、第二試験実施部17は、ステップS411で選択した最小ノード接続に関係する全てのノード間でping試験を実施し、その結果を示す第二試験結果情報を記憶部12に書き込む(ステップS412)。故障箇所推定部18は、ステップS412において書き込まれた第二試験結果情報を参照し、仮の故障箇所を特定する(ステップS413)。故障箇所推定部18は、第一試験結果情報と、仮の故障箇所のノードに障害が発生したときの想定試験結果情報とを比較し、一致する場合には、仮の故障箇所を最終的な判断結果とする(ステップS414)。
図30は、残存部分ネットワークにおける最小ノード接続の接続構成及び第二試験結果情報を示す図である。図30の上側は、残存部分ネットワークにおける最小ノード接続の端ノード間(スイッチN14-スイッチN4間)の接続構成である。また、図30の下側は、その最小ノード接続を構成するスイッチN14、N6、N5、N3、N4の全ての組合せに対してpingを実施した結果を示す第二試験結果情報である。故障箇所推定部18は、同図の下側に示す第二試験結果情報に基づいて、スイッチN5とスイッチN3との間の接続に故障が発生したと推測し、仮の故障箇所と推定する。
図31は、部分ネットワークVL1の第一試験結果情報と想定試験結果情報との比較を示す図である。図31(a)は、ステップS404において部分ネットワークVL1の端ノード間でpingを実施した結果であり、図25(a)に示す第一試験結果情報と同じ図である。図31(b)は、スイッチN7とスイッチN6との間の接続、及び、スイッチN5とスイッチN3との間の接続にのみ故障が発生した場合に想定される部分ネットワークVL1の想定試験結果情報を示す図である。故障箇所推定部18は、これらを比較し、両者が一致することから、他に故障箇所が存在しないと推測する。
図32は、第3の実施形態及び第4の実施形態におけるping実施回数を示す図である。
第3の実施形態と第4の実施形態ともに、全てのノードに対してpingを実施した場合と比較して、大幅にping実施回数が低く抑えられていることが判る。
第3の実施形態と第4の実施形態ともに、全てのノードに対してpingを実施した場合と比較して、大幅にping実施回数が低く抑えられていることが判る。
なお、上述した各実施形態では、通常時(故障検知前)に予めネットワーク構成情報を取得し、記憶部12に記憶している状態で説明を行ったが、故障検知後にネットワークに関するネットワーク構成情報を取得する形態でもよい。その場合にはステップS101とステップS102の間、ステップS201とステップS202の間、ステップS301とステップS302の間、ステップS401とステップS402の間にネットワーク構成情報の取得を実施する。
なお、上述した実施形態においては、系を二つに分けて切り分けて故障箇所を探索する例を示したが、二つに切り分けて探索する方法を繰り返してもよいし、系を最初から3以上の複数に切り分けてそれぞれ適用してもよい。
また、上述した実施形態においては、論理ネットワークが一つしかなく、被検証ネットワークとなる対象数が単一である場合を例に説明したが、複数のネットワークを被検証ネットワークとしてもよい。対象となる被検証ネットワークが複数ある場合、故障箇所推定装置1は、被検証ネットワーク一つずつに対して上述した実施形態を適応していく。適応順番は、被検証ネットワークを構成するノード数が少ないものから行う、多いものから行うなどの方法を用いてもよい。
本実施形態によれば、従来に比べて、被検証ネットワークに対する到達確認プロトコルの実施数が抑制され、接続性確認の手順が簡素化される等の有利な効果がある。
上述した故障箇所推定装置1は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、診断プログラムを実行することによって、上記機能を有する装置として機能する。なお、故障箇所推定装置1の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable LogicDevice)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。診断プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。診断プログラムは、電気通信回線を介して送信されても良い。
上述した実施形態によれば、故障箇所推定装置は、分割部と、第一接続性確認部と、選択部と、第二接続性確認部と、故障箇所推定部とを備える。分割部は、複数のノードを有するネットワークを分割数k(kは1以上の整数)で分割した部分ネットワークを定める。ネットワークは、物理的なノード、論理的なノード、又は、物理的なノードと論理的なノードとの組合せにより構成される物理ネットワーク又は論理ネットワークである。例えば、分割部は、隣接する2つの部分ネットワークにおいて同一のノードを2以上共有するように部分ネットワークを定める。
第一接続性確認部は、部分ネットワークを診断単位ネットワークとし、診断単位ネットワークごとに、当該診断単位ネットワークにおける端ノードの組合せそれぞれについてパスの接続性を確認する。選択部は、診断単位ネットワークごとに、接続性に異常ありと判断された端ノードの組合せから、所定の規則に従って、一部又は全ての組合せを選択し、選択ノード接続とする。所定の規則とは、接続性に異常ありと判断された端ノードの組合せのうち、端ノード間を通過するノードの数が最も少ない又は最も多い組合せを選択するという規則である。あるいは、所定の規則とは、互いに素な関係にある組合せを複数選択するという規則である。
第二接続性確認部は、診断単位ネットワークごとに、選択ノード接続に含まれるノードの組合せそれぞれについてパスの接続性を確認する。故障箇所推定部は、これらノードの組合せそれぞれの接続性の確認結果に基づいて、ネットワークにおける故障箇所を推定する。故障箇所推定部は、推定結果が、すでに行った接続性確認の結果と合致しないときには、診断単位ネットワークから、推定された故障箇所を有する選択ノード接続を除いた部分を少なくとも含む残存部分ネットワークを新たな診断単位ネットワークとする。第一接続性確認部、選択部、第二接続性確認部、及び、故障箇所推定部は、新たな診断単位ネットワークを対象に上記の処理を行う。
なお、故障箇所推定装置は、1台の情報処理装置を用いて実装されてもよく、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。複数台の情報処理装置を用いる場合、故障箇所推定装置が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。また、ノードが故障箇所推定装置の一部又は全ての機能を有してもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
通信ネットワークに利用可能である。
1…故障箇所推定装置, 11…通信部, 12…記憶部, 13…障害検知部, 14…分割部, 15…第一試験実施部, 16…選択部, 17…第二試験実施部, 18…故障箇所推定部
Claims (8)
- 複数のノードを有するネットワークを分割数k(kは1以上の整数)で分割した部分ネットワークを定める分割ステップと、
前記部分ネットワークを診断単位ネットワークとし、診断単位ネットワークごとに、当該診断単位ネットワークにおける端ノードの組合せそれぞれについてパスの接続性を確認する第一接続性確認ステップと、
前記診断単位ネットワークごとに、前記第一接続性確認ステップにおいて接続性に異常ありと判断された前記組合せのうち一部又は全ての組合せを選択する選択ステップと、
前記診断単位ネットワークごとに、前記選択ステップにおいて選択された前記組合せである選択ノード接続に含まれる前記ノードの組合せそれぞれについてパスの接続性を確認する第二接続性確認ステップと、
前記第二接続性確認ステップにおける接続性の確認結果に基づいて前記ネットワークにおける故障箇所を推定する故障箇所推定ステップと、
を有する故障箇所推定方法。 - 前記分割ステップにおいては、隣接する2つの前記部分ネットワークにおいて同一の前記ノードを2以上共有するように前記部分ネットワークを定める、
請求項1に記載の故障箇所推定方法。 - 前記選択ステップにおいては、前記診断単位ネットワークごとに、接続性に異常ありと判断された前記端ノードの組合せのうち前記端ノード間の接続に含まれる前記ノードの数が最も少ない又は最も多い組合せを選択する、
請求項1又は請求項2に記載の故障箇所推定方法。 - 前記選択ステップにおいては、前記診断単位ネットワークごとに、前記第一接続性確認ステップにおいて接続性に異常ありと判断された前記端ノードの組合せから、前記ノードを共有しない2以上の前記組合せを選択する、
請求項1から請求項3のいずれか一項に記載の故障箇所推定方法。 - 前記診断単位ネットワークから、前記故障箇所推定ステップにおいて推定された前記故障箇所を有する前記選択ノード接続を除いた部分を少なくとも含む残存部分ネットワークを新たな診断単位ネットワークとし、前記第一接続性確認ステップ、前記選択ステップ、前記第二接続性確認ステップ、及び、前記故障箇所推定ステップを行う、
請求項1から請求項4のいずれか一項に記載の故障箇所推定方法。 - 接続性の確認に、インターネット制御通知プロトコル(ICMP)を利用したping又はtracerouteを用いる、
請求項1から請求項5のいずれか一項に記載の故障箇所推定方法。 - 前記ネットワークは、物理的なノード、論理的なノード、又は、物理的なノードと論理的なノードとの組合せで構成される、
請求項1から請求項6のいずれか一項に記載の故障箇所推定方法。 - 複数のノードを有するネットワークを分割数k(kは1以上の整数)で分割した部分ネットワークを定める分割部と、
前記部分ネットワークを診断単位ネットワークとし、診断単位ネットワークごとに、当該診断単位ネットワークにおける端ノードの組合せそれぞれについてパスの接続性を確認する第一接続性確認部と、
前記診断単位ネットワークごとに、前記第一接続性確認部において接続性に異常ありと判断された前記組合せのうち一部又は全ての組合せを選択する選択部と、
前記診断単位ネットワークごとに、前記選択部において選択された前記組合せである選択ノード接続に含まれる前記ノードの組合せそれぞれについてパスの接続性を確認する第二接続性確認部と、
前記第二接続性確認部における接続性の確認結果に基づいて前記ネットワークにおける故障箇所を推定する故障箇所推定部と、
を備える故障箇所推定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/281,203 US11516073B2 (en) | 2018-10-11 | 2019-10-02 | Malfunction point estimation method and malfunction point estimation apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018192797A JP6985611B2 (ja) | 2018-10-11 | 2018-10-11 | 故障箇所推定方法及び故障箇所推定装置 |
JP2018-192797 | 2018-10-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020075587A1 true WO2020075587A1 (ja) | 2020-04-16 |
Family
ID=70163939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/038892 WO2020075587A1 (ja) | 2018-10-11 | 2019-10-02 | 故障箇所推定方法及び故障箇所推定装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11516073B2 (ja) |
JP (1) | JP6985611B2 (ja) |
WO (1) | WO2020075587A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6997378B2 (ja) * | 2018-10-26 | 2022-01-17 | 日本電信電話株式会社 | 推定方法、推定装置及び推定プログラム |
CN113300868B (zh) * | 2020-07-13 | 2024-04-30 | 阿里巴巴集团控股有限公司 | 故障网络设备节点的定位方法、装置和网络通信方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010034876A (ja) * | 2008-07-29 | 2010-02-12 | Oki Electric Ind Co Ltd | 障害監視サーバおよびネットワーク障害監視システム。 |
JP2011044776A (ja) * | 2009-08-19 | 2011-03-03 | Nec Corp | ネットワーク保守管理システム、端点ノード、ネットワーク保守管理方法、及び、プログラム |
WO2012070274A1 (ja) * | 2010-11-26 | 2012-05-31 | 三菱電機株式会社 | 通信システムおよびネットワーク障害検出方法 |
JP2014053658A (ja) * | 2012-09-05 | 2014-03-20 | Nomura Research Institute Ltd | 障害部位推定システムおよび障害部位推定プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007018164A1 (ja) * | 2005-08-05 | 2007-02-15 | Nec Corporation | 通信システム、ノード、端末、プログラム及び通信方法 |
CN101310482B (zh) * | 2005-10-11 | 2011-06-08 | 艾利森电话股份有限公司 | 生成生成树的方法 |
US8588076B2 (en) * | 2005-12-28 | 2013-11-19 | Telecom Italia S.P.A. | Method and system for providing user access to communication services, and related computer program product |
US7898965B2 (en) * | 2007-10-12 | 2011-03-01 | Nortel Networks Limited | IP network and performance monitoring using ethernet OAM |
WO2012026132A1 (ja) * | 2010-08-26 | 2012-03-01 | 日本電気株式会社 | マルチレイヤネットワークにおけるネットワーク再構成のための方法およびシステム |
JP5941703B2 (ja) * | 2012-02-27 | 2016-06-29 | 株式会社日立製作所 | 管理サーバ及び管理方法 |
US9710762B2 (en) * | 2012-06-06 | 2017-07-18 | Juniper Networks, Inc. | Dynamic logging |
WO2014046875A1 (en) * | 2012-09-20 | 2014-03-27 | Ntt Docomo, Inc. | A method and apparatus for topology and path verification in networks |
US9497107B1 (en) * | 2013-06-06 | 2016-11-15 | Cisco Technology, Inc. | Seamless path monitoring and rapid fault isolation using bidirectional forwarding detection in a network environment |
-
2018
- 2018-10-11 JP JP2018192797A patent/JP6985611B2/ja active Active
-
2019
- 2019-10-02 US US17/281,203 patent/US11516073B2/en active Active
- 2019-10-02 WO PCT/JP2019/038892 patent/WO2020075587A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010034876A (ja) * | 2008-07-29 | 2010-02-12 | Oki Electric Ind Co Ltd | 障害監視サーバおよびネットワーク障害監視システム。 |
JP2011044776A (ja) * | 2009-08-19 | 2011-03-03 | Nec Corp | ネットワーク保守管理システム、端点ノード、ネットワーク保守管理方法、及び、プログラム |
WO2012070274A1 (ja) * | 2010-11-26 | 2012-05-31 | 三菱電機株式会社 | 通信システムおよびネットワーク障害検出方法 |
JP2014053658A (ja) * | 2012-09-05 | 2014-03-20 | Nomura Research Institute Ltd | 障害部位推定システムおよび障害部位推定プログラム |
Non-Patent Citations (2)
Title |
---|
TSUTSUMI, YOHSUKE ET AL.: "Estimation of Failure Locations by Path Integration/partition in Network Failure", IEICE TECHNICAL REPORT, vol. 117, no. 459, February 2018 (2018-02-01), pages 175 - 180 * |
WATANABE, TAKEHIKO ET AL.: "Locating Degraded Elements in the IP Network Based on End-to-end IP Path Quality Measurement", IEICE TECHNICAL REPORT, vol. 109, no. 463, 4 March 2010 (2010-03-04), pages 87 - 92 * |
Also Published As
Publication number | Publication date |
---|---|
US20220045900A1 (en) | 2022-02-10 |
JP2020061685A (ja) | 2020-04-16 |
JP6985611B2 (ja) | 2021-12-22 |
US11516073B2 (en) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10659345B2 (en) | Service path protection method, controller, device and system | |
CN103401726B (zh) | 网络路径探测方法及装置、系统 | |
US9608900B2 (en) | Techniques for flooding optimization for link state protocols in a network topology | |
CN105379201B (zh) | 路径切换的方法、控制器和故障切换交换机 | |
US11902137B2 (en) | Service path failure location estimation method, apparatus, and program | |
JP6443864B2 (ja) | パケット紛失検出を実装するための方法、装置、およびシステム | |
CN108134707B (zh) | 一种路由检测的方法、系统及网络设备 | |
CN112787845B (zh) | 工业自动化系统及其操作方法和控制系统 | |
WO2020075587A1 (ja) | 故障箇所推定方法及び故障箇所推定装置 | |
CN105743687B (zh) | 节点故障的判断方法及装置 | |
CN111614505B (zh) | 报文处理的方法和网关设备 | |
US20150098317A1 (en) | Linear protection switching method and apparatus for protecting network segmented into multi-domain | |
JP4344333B2 (ja) | パケット転送装置、パケット転送ネットワークシステムおよびパケット転送方法 | |
KR102024515B1 (ko) | 전송 장치 및 경로 추가 방법 | |
US10666553B2 (en) | Method for quick reconfiguration of routing in the event of a fault in a port of a switch | |
CN105812160B (zh) | 一种无缝冗余网络模式自适应方法及装置 | |
WO2022009294A1 (ja) | ネットワーク監視装置、ネットワーク監視方法、および、ネットワーク監視プログラム | |
US20220368595A1 (en) | Exchange management apparatus, exchange management method, and program | |
CN111917637B (zh) | 数据报文发送方法及装置 | |
JP5585437B2 (ja) | ネットワーク管理装置、ネットワーク管理システム、および、ネットワーク管理方法 | |
JP2017147713A (ja) | ノード装置、および通信システム | |
JP6418633B2 (ja) | 網管理サーバ、疎通判定方法及びプログラム | |
JP2013168815A (ja) | 輻輳原因となる送信元を特定する装置及び方法 | |
US20170279663A1 (en) | Switching method, transmission device, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19870096 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19870096 Country of ref document: EP Kind code of ref document: A1 |