WO2010003323A1

WO2010003323A1 - 一种链路故障恢复的方法、系统和装置

Info

Publication number: WO2010003323A1
Application number: PCT/CN2009/070482
Authority: WO
Inventors: 刘庆智; 夏洪淼; 郭大勇
Original assignee: 华为技术有限公司
Priority date: 2008-07-07
Filing date: 2009-02-20
Publication date: 2010-01-14
Also published as: CN101626317A

Description

一种链路故障恢复的方法、系统和装置

本申请要求于 2008 年 7 月 7 日提交中国专利局、申请号为 200810127676.1、发明名称为"一种链路故障恢复的方法、系统和装置"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及网络通讯领域，尤其涉及一种链路故障恢复的方法、系统和装置。

背景技术

在现有的多层网络中，网络故障可能发生在 IP层或传送层，所以通常在

IP层和传送层都有相应的技术实现保护 , 如在 IP层可以使用多协议标签交换快速重路由（MPLS FRR )技术，传送层可以使用 1+1保护技术、 1:1保护技术或共享保护技术。

当网络发生 IP层故障时，路由器可以检测到该故障并快速保护；当网络发生传送层故障时，通常路由器和光设备都可以检测到该故障，并分别启动各自的保护恢复机制。由于二者启动保护时间相近，当路由器将故障的链路切换到保护链路上时，光层恢复也已成功，即故障的原链路已经修复，可以重新切换回原链路。这时路由器做了无用工作，且还可能导致路由振荡。

为了避免这种情况，现有技术引入了定时器（ hold-off timer,通常是 50ms )，当路由器检测到故障时设置定时器，在预定时间内等待光层先采取保护措施，路由器不作处理。等待过程中，路由器通过双向转发检测（BFD )等机制判断故障是否仍然存在，若传送层已经恢复完毕，那么路由器关闭定时器，恢复正常工作状态；若超过定时器预定的时间，路由器检测故障仍然存在，立即启动 IP层的保护恢复机制。

发明人在实现本发明的过程中，发现现有技术至少存在以下问题：当网络故障是 IP层故障时，在路由器设置的定时器超时后，才会启动 IP 层的保护恢复机制 , 从而会延长 IP层故障的恢复时间。

发明内容

为解决上述问题，本发明实施例提供了一种链路故障恢复的方法、系统和装置，克服网络出现 IP层故障时，路由器设置定时器一直等待，会延长 IP层故障的恢复时间的缺陷。

本发明实施例提供一种链路故障恢复的方法，包括：检测到网络故障时，启动定时器；接收已检测到故障类型的节点上报的故障信息；从上述故障信息中获取上述故障类型；如果未超过上述定时器预定的时间且上述故障类型为 IP 层故障，关闭上述定时器，将故障的 IP层链路切换为 IP层保护链路。

相应地，本发明实施例还提供了一种链路故障恢复的装置，包括：检测模块，用于检测网络故障；启动模块，用于当检测模块检测到网络故障时，启动定时器；接收模块，用于接收已检测到故障类型的节点上报的故障信息；解析模块，用于从接收模块接收的故障信息中获取故障类型；保护模块，用于当未超过上述定时器预定的时间且故障类型为 IP层故障时，关闭定时器，将故障的 IP层链路切换为 IP层保护链路。

相应地，本发明实施例还提供了一种链路故障恢复的系统，包括：第一节点和第二节点；其中，

第一节点，用于在检测到网络故障时，向第二节点上携带故障类型的故障信息；

第二节点，用于在检测到网络故障时，启动定时器；接收第一节点上报的故障信息；从故障信息中获取故障类型；当未超过上述定时器预定的时间且故障类型为 IP层故障时，关闭定时器，将故障的 IP层链路切换为 IP层保护链路。

与现有技术相比，本发明实施例通过在检测到网络故障时，启动定时器，解析下游节点发送的带有故障类型的故障信息，并获取故障类型，当未超过上述定时器预定的时间且故障类型为 IP层故障时，立即关闭定时器并将故障的 IP层链路切换为 IP层保护链路，从而大大加快故障恢复速度，缩短故障的恢复时间，避免无用的等待。

附图说明

图 1是本发明实施例的应用场景示意图；

图 2是本发明实施例中链路故障恢复的方法流程图；

图 3 是本发明实施例中首节点执行链路故障恢复的方法流程图；图 4是本发明实施例中中间保护节点执行链路故障恢复的方法流程图；图 5是本发明实施例中将故障的 IP层链路切换为 IP层临时保护链路的示意图；

图 6是本发明实施例中首节点 R1重新建立链路的示意图；

图 Ί是本发明又一实施例中链路故障恢复的方法流程图；

图 8是本发明实施例中链路故障恢复的装置示意图；

图 9是本发明实施例中链路故障恢复的系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图 1所示，为本发明实施例的应用场景的示意图。节点 Rl、 R2、 R3、 R4 为路由器，节点 Nl、 N2、 N3、 N4是光节点。 R1与 Nl、 R2与 N2、 R3 与 N3、R4与 N4之间采用 POS( Packet of SDH, SDH封装包）或者 OTN( Optical Transport Network, 光传送网）接口连接。路由器 R1和 R2之间的链路由光节点 N1和 N2之间的 LSP( Lable Switch Path,标签交换路径）承载，路由器 R2 和 R3之间的链路由光节点 N2和 N3 之间的 LSP承载，路由器 R3和 R4之间的链路由光节点 N3和 N4之间的 LSP承载。在路由器 R1至 R4之间建立一条 LSP, 路径是 R1— R2— R3— R4。其中，节点 R3和节点 R4之间的 LSP 出现故障。

如图 2所示，为本发明实施例中链路故障恢复的方法流程图，包括：步骤 S201、检测到网络故障时，启动定时器；

具体的，可以是首节点（如图 1中的 R1 )检测到网络故障时，启动定时器。首节点只能检测到该故障，但不能确定该故障属于 IP层还是传送层。

步骤 S202、接收已检测到故障类型的节点上报的故障信息；

具体的，首节点（如图 1中的 R1 )向下游节点（如图 1中的 R3 )发送携带标志位的信息，该标志位用于指示下游节点在检测到网络故障时，上报故障类型。下游节点可以检测出该故障发生在 IP层还是传送层。下游节点发送携带故障类型的故障信息至首节点，其中，故障类型用于指示发生的网络故障是属于 IP层故障还是传送层故障。步骤 S203、从上述故障信息中获取上述故障类型；

具体的，首节点通过解析下游节点上报的故障信息，获取到发生的网络故障是属于 IP层故障还是传送层故障。障，关闭定时器，将故障的 IP层链路切换为 IP层保护链路。首节点关闭定时器，将故障的 IP层链路切换为 IP层保护链路。

上述方法还包括：器超时。

如果超过上述定时器预定的时间 ,检测网络故障是否仍然存在；如果存在 , 将故障的 IP层链路切换为 IP层保护链路；如果不存在，说明已对传送层故障进行了恢复。需要说明的是，如果超过上述定时器预定的时间，检测到网络故障仍然存在，这种情况，可能是 IP层链路故障还未恢复，也有可能是传送层故障还未恢复。对于前者情况，需要将故障的 IP层链路切换为 IP层保护链路，对于后者情况，也需要将当前的 IP层链路切换为 IP层保护链路。

上述方法，也可以是中间保护节点（如图 1中的 R2 )检测到网络故障时，启动定时器；下游节点发送携带故障类型的故障信息至中间保护节点；中间保护节点通过解析故障信息，获取到发生的网络故障是属于 IP层故障还是传送层故障；如果未超过上述定时器预定的时间且上述故障类型为 IP层故障，中间保护节点关闭定时器，将故障的 IP层链路切换为 IP层临时保护链路。

通过上述步骤，在未超过定时器预定的时间时，若获取的故障类型为 IP 层故障，可以直接关闭定时器，并将故障的 IP层链路切换为 IP层保护链路，这样可以大大加快故障恢复速度，缩短恢复时间，避免无用的等待。

如图 3所示，为首节点执行链路故障恢复的方法流程图。以图 1中的场景为例进行说明， R1为首节点，当节点 R3和节点 R4之间的 LSP出现故障时，链路故障恢复的具体过程如下，包括：

步骤 S301、建立路径时，首节点 R1向下游节点发送 Path消息；具体的，在首节点 R1至节点 R4之间建立一条 LSP, 首节点 R1向下一节点 R2发起 Path消息 ,下一节点 R2对该 Path消息进行处理后发送到下一节点 R3 , 以此类推，逐次发送到 Path消息携带的 ERO ( Explicit Route Object, 目标路径指示）指定的途径节点。通过对 RSVP-TE (基于流量工程扩展的资源预留协议）协议进行扩展，向下游节点发送 Path消息时，在该消息的会话属性 Object的报文头中增加一标志位，该标志位用于指示下游节点检测到故障时向上游4艮告故障类型，如 IP层故障或传送层故障。也就是说，下游节点接收到该消息后，若检测到故障类型，需要向首节点发送包括故障类型的故障信息。

步骤 S302、首节点 R1检测到 LSP发生故障时，启动定时器；

具体的，首节点 R1通过 BFD检测到发生故障，但不能确定该故障的类型，即该故障属于 IP层还是传送层。此时，首节点 R1启动定时器。

步骤 S303、节点 R3通过检测确定故障的类型；具体的，下游节点 R3通过 POS和 OTN接口技术，可以确定故障发生在 IP层还是传送层。

步骤 S304、节点 R3发送故障信息，指示故障类型；具体的，下游节点 R3在发送的故障信息中携带故障类型，用于标识故障的类型，如 IP层故障或传送层故障。下游节点 R3可以直接向首节点 R1发送该故障信息，也可以向上游节点 R2发送该故障信息，由节点 R2向首节点 R1发送该故障信息。

步骤 S305、首节点 R1解析故障信息，获取故障类型；

步骤 S306、首节点 R1检测定时器是否超过预定的时间，若未超过执行步骤 S307; 若已超过执行步骤 S310;

步骤 S307、判断首节点 R1获取的故障类型是否为 IP层故障；

如果是，执行步骤 S308; 如果不是，即该故障类型为传送层故障，执行步骤 S309。

步骤 S308、首节点 R1关闭定时器，将故障的 IP层链路切换为 IP层保护链路，此时，流程结束；

步骤 S309、等待定时器超过预定的时间，转步骤 S306;

步骤 S310、首节点 R1检测故障是否仍然存在，如果存在，执行步骤 S311; 如果不存在，则不进行任何操作；

步骤 S311、首节点 R1将故障的 IP层链路切换为 IP层保护链路，此时，流程结束。

才艮据上述步骤，首节点检测到故障并启动定时器，收到下游节点上^艮的故障信息后，通过解析该故障信息获取故障类型，当故障属于 IP层时可以提前关闭定时器，立即启动 IP层保护机制，将故障的 IP层链路切换为 IP层保护链路，缩短了故障恢复的时间。

如图 4 所示，为中间保护节点执行链路故障恢复的方法流程图。以图 1 中的场景为例进行说明，节点 R2作为中间保护节点，当节点 R3与节点 R4 之间发生故障时，链路故障恢复的具体过程如下，包括：

步骤 S401、节点 R2检测到 LSP发生故障时，启动定时器；

具体的，节点 R2通过 BFD检测到发生故障，但不能确定该故障的类型，即该故障属于 IP层还是传送层。此时，节点 R2启动定时器，优先等待传送层恢复。

步骤 S402、节点 R3检测到故障类型后，向节点 R2上报故障信息；步骤 S403、节点 R2解析接收的故障信息，获取故障类型；

步骤 S404、节点 R2检测定时器是否超过预定的时间，若未超过，执行步骤 S405; 若已超过，执行步骤 S410;

步骤 S405、判断中间保护节点 R2获取的故障类型是否为 IP层故障；如果故障类型是 IP层故障，执行步骤 S406; 如果故障类型不是 IP层故障，即故障类型是传送层故障，执行步骤 S409;

步骤 S406、节点 R2关闭定时器，将故障的 IP层链路切换为 IP层临时保护链路；

如图 5所示，该 IP层临时保护链路为节点 R2与节点 R4之间的临时链路，即路径更改为节点 R2—节点 R5—节点 R4。

步骤 S407、节点 R2通知首节点 R1 ,节点 R3与节点 R4之间的 IP层发生故障；

步骤 S408、首节点 R1启动恢复机制，重新选择新的路由建立链路，此时，流程结束；

如图 6所示，首节点 R1选择不经过故障链路的路由，重新建立链路，新的链路为：首节点 R1—节点 R6—节点 R4。步骤 S409、等待定时器超过预定的时间，转步骤 S404;

步骤 S410、节点 R2检测故障是否仍然存在，如果存在，执行步骤 S411; 如果不存在，则不进行任何操作；

步骤 S411、节点 R2将故障的 IP层链路切换为 IP层临时保护链路，然后转步骤 S407。

中间保护节点获取到 IP层发生故障后，关闭定时器并将故障的 IP层链路切换为 IP层保护链路，在首节点启动恢复机制来修复原链路前，发生故障的节点之间可以暂时的进行信息交互。

本发明又一实施例提供了一种链路故障恢复的方法，首节点 R1作为保护点，节点 R3与节点 R4之间发生故障，首节点 R1还未检测到发生故障时，就已经接收到下游节点上报的故障信息，该场景下的处理过程，如图 7所示，包括：

步骤 S701、节点 R3检测到故障类型后，向上游节点上故障信息；节点 R3 可以直接向首节点 R1发送该故障信息，也可以向上游节点 R2 发送该故障信息，由节点 R2向首节点 R1发送该故障信息。

步骤 S702、首节点 R1接收到该故障信息后，继续对链路进行检测；具体的，首节点 R1接收到该故障信息后，并不解析该故障信息，而是对链路继续进行检测。

步骤 S703、首节点 R1检测到链路发生故障后，启动定时器；

步骤 S704、首节点 R1解析故障信息，若故障类型为 IP层发生故障时，关闭定时器，将故障的 IP层链路切换为 IP层保护链路，重新选择新的路由建立路径。

保护点对上报的故障信息暂不解析，在检测到故障之后，启动定时器并解析故障信息，若故障为 IP层时，关闭定时器并将故障的 IP层链路切换为 IP 层保护链路，较大地缩短故障恢复的时间。

本发明实施例提供了一种链路故障恢复的装置，如图 8所示，包括：检测模块 801 , 用于检测网络故障；

启动模块 802，用于当检测模块 801检测到网络故障时，启动定时器；接收模块 803 , 用于接收已检测到故障类型的节点上报的故障信息；解析模块 804，用于从接收模块 803接收的故障信息中获取故障类型；保护模块 805, 用于当未超过上述定时器预定的时间且故障类型为 IP层故障时，关闭定时器，将故障的 IP层链路切换为 IP层保护链路。

该装置还包括：发送模块 806, 用于向上述节点发送包括标志位的信息，该标志位用于指示上述节点在检测到网络故障时，上报故障类型。

上述保护模块 805, 还用于当未超过上述定时器预定的时间且故障类型为传送层故障时，等待定时器超时。

上述保护模块 805, 还用于当超过上述定时器预定的时间且检测模块检测到网络故障时，将故障的 IP层链路切换为 IP层保护链路。需要说明的是，如果超过上述定时器预定的时间，检测到网络故障仍然存在，这种情况，可能是 IP层链路故障还未恢复，也有可能是传送层故障还未恢复。对于前者情况，上述保护模块 805需要将故障的 IP层链路切换为 IP层保护链路，对于后者情况，上述保护模块 805也需要将当前的 IP层链路切换为 IP层保护链路。

本发明实施例提供的装置通过解析上报的故障信息获取故障类型 ,并在故障类型为 IP层故障时，关闭定时器并进行相应的处理，由此可以在 IP层发生故障时缩短故障恢复的时间。

本发明实施例还提供了一种链路故障恢复的系统，如图 9所示，包括：第一节点 901和第二节点 902; 其中，

第一节点 901 , 用于在检测到网络故障时，向第二节点 902上报包括故障类型的故障信息；

第二节点 902,用于在检测到网络故障时，启动定时器；接收第一节点 901 上报的故障信息；从接收的故障信息中获取故障类型；当未超过上述定时器预定的时间且故障类型为 IP层故障时，关闭定时器，将故障的 IP层链路切换为 IP层保护链路。

上述第二节点 902包括：检测模块 9021 , 用于检测网络故障；启动模块

9022,用于当检测模块 9021检测到网络故障时，启动定时器；接收模块 9023，用于接收第一节点 901上报的携带故障类型的故障信息；解析模块 9024, 用于从接收模块 9023接收的故障信息中获取故障类型；保护模块 9025，用于当未超过上述定时器预定的时间且故障类型为 IP层故障时，关闭定时器，将故障的 IP层链路切换为 IP层保护链路。

上述第二节点 902还包括：发送模块 9026, 用于向第一节点 901发送包括标志位的信息，该标志位用于指示第一节点 901在检测到网络故障时，上报故障类型。

上述保护模块 9025, 还用于当未超过上述定时器预定的时间且故障类型为传送层故障时，等待定时器超时。

上述保护模块 9025, 还用于当超过上述定时器预定的时间且检测模块检测到网络故障时 , 将故障的 IP层链路切换为 IP层保护链路。

通过本发明实施例提供的方法、系统和装置，在检测到网络故障时，启动定时器，解析下游节点发送的带有故障类型的故障信息，并获取故障类型，当未超过上述定时器预定的时间且故障类型为 IP层故障时，立即关闭定时器并将故障的 IP层链路切换为 IP层保护链路，从而大大加快故障恢复速度，缩短故障的恢复时间，避免无用的等待。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是 CD-ROM, U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

权利要求

1、一种链路故障恢复的方法，其特征在于，包括：

检测到网络故障时，启动定时器；

接收已检测到故障类型的节点上报的故障信息，所述故障信息携带所述故障类型；

从所述故障信息中获取所述故障类型；

如果未超过所述定时器预定的时间且所述故障类型为 IP层故障，关闭所述定时器，将故障的 IP层链路切换为 IP层保护链路。

2、如权利要求 1所述的方法，其特征在于，所述节点上报的故障信息是根据其接收到的携带标志位的信息上报的，其中所述标志位用于指示所述节点在检测到网络故障时上报故障类型。

3、如权利要求 1所述的方法，其特征在于，还包括：述定时器超时。

4、如权利要求 1所述的方法，其特征在于，还包括：

如果超过所述定时器预定的时间 , 检测所述网络故障是否仍然存在；如果存在，将故障的 IP层链路切换为 IP层保护链路。

5、如权利要求 3所述的方法，其特征在于，还包括：

如果超过所述定时器预定的时间 , 检测所述网络故障是否仍然存在；如果存在，将当前的 IP层链路切换为 IP层保护链路。

6、一种链路故障恢复的装置，其特征在于，包括：

检测模块，用于检测网络故障；

启动模块，用于当所述检测模块检测到网络故障时，启动定时器；接收模块，用于接收已检测到故障类型的节点上报的故障信息，所述故障信息携带所述故障类型；

解析模块，用于从所述接收模块接收的故障信息中获取所述故障类型；保护模块，用于当未超过所述定时器预定的时间且所述故障类型为 IP层故障时，关闭所述定时器，将故障的 IP层链路切换为 IP层保护链路。

7、如权利要求 6所述的装置，其特征在于，还包括：发送模块，用于向所述节点发送携带标志位的信息，所述标志位用于指示所述节点在检测到网络故障时，上4艮故障类型。

8、如权利要求 6所述的装置，其特征在于，所述保护模块，还用于当未超时。

9、如权利要求 6所述的装置，其特征在于，所述保护模块，还用于当超过所述定时器预定的时间且所述检测模块检测到网络故障时，将故障的 IP层链路切换为 IP层保护链路。

10、如权利要求 8所述的装置，其特征在于，所述保护模块，还用于当超过所述定时器预定的时间且所述检测模块检测到网络故障时，将当前的 IP层链路切换为 IP层保护链路。

11、一种链路故障恢复的系统，其特征在于，包括：第一节点和第二节点；其中，

所述第一节点，用于在检测到网络故障时，向所述第二节点上报携带故障类型的故障信息；

所述第二节点，用于在检测到网络故障时，启动定时器；接收所述第一节点上报的故障信息；从所述故障信息中获取所述故障类型；当未超过所述定时器预定的时间且所述故障类型为 IP层故障时，关闭所述定时器，将故障的 IP 层链路切换为 IP层保护链路。

12、一种存储介质，其特征在于，包括若干指令，所述指令使一台计算机设备执行以下方法：

检测到网络故障时，启动定时器；

从所述故障信息中获取所述故障类型；