WO2012103724A1

WO2012103724A1 - 一种进程组和进程组中的异常组成员离开的方法

Info

Publication number: WO2012103724A1
Application number: PCT/CN2011/076591
Authority: WO
Inventors: 刘颖
Original assignee: 华为技术有限公司
Priority date: 2011-06-29
Filing date: 2011-06-29
Publication date: 2012-08-09
Also published as: CN102318272A; CN102318272B

Description

一种进程组和进程组中的异常组成员离开的方法技术领域

本发明涉及网络中的因特网组管理协议，尤其涉及一种进程组和进程组中的异常组成员离开的方法。

背景技术

组播是指在发送者和每一接收者之间实现点对多点网络连接传输。因特网组管理协议（Int erne t Group Management Pro toco l , I GMP)是因特网协议家族中的一个组播协议，用于主机向任一个直接相邻的路由器报告它们的组成员情况。在集群路由器、分布式路由器中存在大量的进程间通信。如果一份数据多个进程都关心，让相关进程加入一个进程组，釆用组播通信方式来进行通信以便节省连接和带宽等操作系统资源。

进程组成员间的通信对可靠性往往有较高要求，对组播通信而言，当接收进程成员异常时，发送进程成员应较快判别进程组中的异常接收进程成员，不能中断通信。当异常接收进程成员恢复后，发送进程成员应通知异常进程成员之前数据失效，需要重新加入进程组以获取新的数据。

在现有技术中，当进程组成员异常退出进程组时，发送组成员会发送进程组查询消息来确认进程组成员，如果组成员异常没有回应，则发送组成员把异常组成员从进程组中删除。发明人发现在现有技术中至少存在如下问题：在删除异常组成员之后，当异常进程组成员恢复通信后，没有一种机制来通知异常组成员已从进程组中删除，需要重新加入进程组，因而其只能往该进程组发送报文，无法收到进程组成员发来的报文。

发明内容

本发明的实施例提供一种进程组和进程组中的异常组成员离开的方法，能够确定进程组中的组成员可靠地离开进程组。为达到上述目的，本发明进程组中的异常组成员可靠离开的方法实施例釆用如下技术方案：一种进程组中的异常组成员离开的方法，包括：

出现异常的组成员；

所述发送组成员从自身的本地组成员拓朴中删除所述异常组成员；所述发送组成员在所述异常组成员恢复数据通信后发送强迫离开消息通知所述异常组成员离开所述进程组，所述异常组成员收到所述强迫离开消息后离开所述进程组。

一种进程组，包括：

发送组成员，用于向接收组成员发送报文，并对进程组中的组成员进行异常检测，确定出现异常的接收组成员，在确定出出现异常的接收组成员后，将所述出现异常的接收组成员从该发送组成员的本地组成员拓朴中删除所述出现异常的接收组成员；所述发送组成员在所述出现异常的接收组成员恢复数据通信后发送强迫离开消息通知所述出现异常的接收组成员离开所述进程组；

接收组成员，用于接收发送组成员发送的报文，并在接收到发送组成员发送的所述强迫离开消息后，离开进程组。本发明实施例进程组和进程组中的异常组成员离开的方法，在发送组成员探测出异常组成员并将其删除后，当所述异常组成员恢复数据通信后，发送组成员发送强迫离开消息要求所述异常组成员离开进程组，所述异常组成员收到强迫离开消息之后离开进程组。由于所述异常组成员离开进程组时，已收到强迫离开消息知道自身已被删除，这样，所述异常组成员在不仅需要往组内发送报文而且需要收到进程组内其它组成员发来的才艮文时应重新加入进程组。

附图说明为了更清楚地说明本实用新型实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本实用新型的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1 所示为本发明中进程组中的组成员可靠离开的方法实施例的流程图；

图 2所示为本发明实施例中确定出现异常的组成员的流程图；图 3所示为本发明进程组中的组成员可靠离开的方法另一实施例的流程图；

图 4所示为本发明进程组中的组成员可靠离开的方法又一实施例的流程图。

具体实施方式为更好的理解本发明且使本发明能够易于实施。下面结合附图及具体实施例对本发明进行详细描述。本发明实施例提供一种进程组中的异常组成员离开的方法。如图 1 所示，该方法包括以下步骤：

S 1 0 :发送组成员对自身所属进程组中的组成员进行异常检测并从中确定出现异常的组成员；

进程组由多个进程组成，进程组中的各个进程为此进程组的一个组组中接收报文的进程即为进程组中的接收组成员，当进程组中的某个组

S 1 2 : 所述发送组成员从本地组成员拓朴中删除所述异常组成员；进程组中组成员的本地组成员拓朴涵盖进程组中的各个组成员之间的相互关系，进程组中的各个组成员都保存有本地组成员拓朴，当发送组成员检测出异常组成员后，发送组成员即从本地组成员拓朴中删除所述异常组成员以便更新本地组成员拓朴，实时记录进程组中组成员之间的拓朴关系；

S 1 4 :所述发送组成员在所述异常组成员恢复数据通信后发送强迫离开消息通知所述异常组成员离开所述进程组；

S 1 6 : 所述异常组成员收到所述强迫离开消息后离开所述进程组。本方法在异常组成员恢复后，通过发送强迫离开消息通知异常组成员离开所述进程组来告知异常组成员其已被删除，所述异常组成员收到强迫离开消息后可靠地离开进程组。由于所述异常组成员离开进程组时，已收到强迫离开消息知道自身已被删除，这样，所述异常组成员在不仅需要往进程组内发送报文而且需要收到进程组内其它组成员发来的报文时应重新加入进程组。

前，发送组成员向其它组成员组播数据报文；所述发送组成员在所述异常组成员恢复数据通信后发送强迫离开消息通知所述异常组成员离开进程组包括：所述异常组成员在恢复数据通信后向所述发送组成员反馈确认接收消息；可选地，所述确认接收消息中可以携带所述异常组成员的组成员标识；

所述发送组成员在接收到所述确认消息后，判断在本地组成员拓朴中有无所述异常组成员；可选地，所述发送组成员根据所述确认接收消息中携带的所述异常组成员的组成员标识查询本地组成员拓朴，判断在本地组成员拓朴中有无所述异常组成员；

若在本地组成员拓朴中没有所述异常组成员，则向所述异常组成员发送强迫离开消息通知所述异常组成员离开进程组。

进一步地，在所述发送组成员从本地组成员拓朴中删除所述异常组成员之后包括：所述发送组成员在所述进程组内组播踢除成员报文，其的其它组成员接收到所述踢除成员报文后从各自的本地组成员拓朴中相应删除所述异常组成员。

更进一步地，所述异常组成员收到所述强迫离开消息后离开所述进通知所述其它组成员所述异常组成员离开所述进程组；所述其它组成员接收到所述离开消息后从各自的本地组成员拓朴中相应删除所述异常组成员。包括：所述发送组成员启动定时器记录在预定时间内是否有向其它组成员发送数据报文；若未发送数据报文，则所述进程组中的组成员出现异常。

图 2 显示本发明实施例中确定出现异常的组成员的流程图。如图 2 所示，所述确定出现异常的组成员的方法包括：

步骤 22 : 发送组成员向自身所属的进程组内的其它组成员组播探测报文，请求所述其它组成员反馈已按序接收的数据报文序列号；

发送组成员向进程组内的其它组成员组播数据报文时，所述其它组成员会向所述发送组成员反馈已按序接收的数据报文序列号；所述发送组成员接收和记录所述其它组成员反馈的按序接收的数据报文序列号当中的最小数据报文序列号；

步骤 24 : 所述其它组成员接收到所述探测报文后，向所述发送组成员反馈所述已按序接收到的数据报文序列号；

步骤 26 : 所述发送组成员收到所述其它组成员反馈的数据报文序列号后从中确定最小数据报文序列号；

步骤 28 : 所述发送组成员判断所述最小数据报文序列号与发送所述探测报文之前记录的最小数据报文序列号相比有无更新；

步骤 30: 若无更新，向反馈所述最小数据报文序列号的组成员再单播探测报文；

步骤 31 : 所述反馈最小数据报文序列号的组成员接收到所述探测报文后，再次向所述发送组成员反馈所述已按序接收的数据报文序列号；如果所述反馈最小数据报文序列号的组成员已经异常，则不会反馈所述已按序接收的数据报文序列号；

步骤 32 : 所述发送组成员接收到所述反馈的数据报文序列号之后，再次判断所述反馈的数据报文序列号与首次发送探测报文之前记录的最小数据报文序列号相比有无更新；如果在探测时限内没有收到反馈报文，则判断为无更新；

步骤 34 : 若仍无更新，则确定所述反馈最小数据报文序列号的组成员为异常组成员。

下面结合图 3和图 4来完整描述本发明进程组中的异常组成员可靠离开方法实施例的具体流程。

进程组外的新进程成员要和进程组中的组成员进行通信之前，必须首先加入进程组。进程组外的新进程成员加入进程组有以下步骤：

1.进程组外的新进程成员向全局组成员数据库请求进程组的组成员 id (identification，身份标识）。同时获取当前的组成员信息，包括组播地址，如果是三层组播就是组播 IP地址，如果是二层组播就是组播 MAC

( Media Access Control,介质访问控制 ) 地址, 成员位置和成员 id。

2. 进程组外的新进程成员在进程组内组播加入消息，等待所有组成员回应加入 ACK (acknowledge, 确认）消息。如果在规定时间内没有收到所有加入 ACK消息，则加入进程组失败，回退加入操作。若收到所有加入 ACK 消息，则所述进程组外的新进程成员就构建了一张全体组成员拓朴结构。

3.进程组内的组成员收到加入消息后，获知有新进程成员加入进程组，把新进程成员位置和成员 id添加到本地组成员拓朴结构中。进程组外的新进程成员加入进程组后即成为进程组内的组成员，可以发送组播才艮文也可以接收组播才艮文，即进程组内的组成员既可以充当发送组成员也可以充当接收组成员。发送组成员记录其它组成员的接收情况，记录内容包含：接收组成员已正确接收的数据报文序列号和接收窗口大小。接收组成员记录每个发送组成员发送的报文在本地的接收情况，包括针对每个发送组成员按序接收到的最大数据报文序列号，针对每个发送组成员按序接收到的数据报文队列。

发送组成员在通信过程中维护一个长度固定的发送队列以避免拥塞，发送组成员在发送队列中保存待接收组成员确认的已发送数据报文。接收组成员收到发送组成员发来的数据报文后通过反馈 ACK 消息向发送组成员确认已按序成功接收到的数据报文序列号和当前剩余的接收窗口大小。发送组成员根据接收组成员反馈的 ACK 消息，更新发送队列，更新发送窗口大小。在任何时刻发送组成员最多只能把发送队列填满，在发送队列填满后，若发送队列没有更新，则不再发送新的数据报文，若有更新，则可根据更新后的发送对列继续发送新的数据报文。

诸接收组成员所反馈的 ACK消息中携带最小接收序列号的接收组成员称为最弱接收组成员。在通信过程中，发送组成员每收到接收组成员反馈的一个 ACK 消息就计算当前的最弱接收组成员并记录当前最弱接收组成员收到的数据报文序列号，以当前最弱接收组成员收到的数据报文序列号来替代上一次反馈中的最弱接收组成员的数据报文序列号。同时以当前最弱接收组成员收到的数据报文序列号（即最小接收序列号）作为发送组成员的发送队列的清除依据，即根据最弱接收组成员的数据报文序列号来清除发送队列中的相应报文。同时以接收组成员当前接收窗大小中的最小接收窗大小控制发送组成员当前可发送的数据报文个数。在数据报文丟失的情况中，接收组成员通过 NACK消息向发送组成员通告丟失的数据报文，要求发送组成员重传丟失的数据报文。

在进程通信出现异常时，进程组中的组成员需要可靠离开进程组。图 3所示为本发明进程组中的组成员可靠离开的方法实施例的具体流程图。如图 3所示，该方法包括以下步骤：

步骤 1 02 : 发送组成员启动探测定时器，用探测定时器来记录其在预定时间内所发送的数据报文数。

步骤 1 04 : 判断在所述预定时间内所记录的发送报文数是否为 0。若不为 0 , 则执行步骤 1 05 , 即所述发送组成员恢复发送；若为 0 , 则表示发送组成员没有发送报文，最小序列号无更新，进程组内出现异常组成员，在此情况下执行步骤 1 06 , 即所述发送组成员向其它组成员组播探测报文，请求其它组成员应答已按序接收到的数据报文序列号。

步骤 1 08 : 判断最小序列号有无更新，即判断接收组成员所反馈的序列号当中的最小序列号与发送所述探测报文之前记录的最小数据报文序列号相比是否相同，若相同则表示无更新，若不同则表示有更新。

若有更新，则执行步骤 1 05 , 即所述发送组成员恢复发送；若没有更新，则执行步骤 1 1 0 , 即发送组成员向反馈最小序列号的最弱接收组成员单播探测报文，请求最弱接收组成员应答已按序接收到的数据报文序列号。

步骤 1 1 2 : 再次判断最小序列号有无更新，即判断最弱接收组成员所反馈的接收序列号与发送所述探测报文之前记录的最小数据报文序列号相比是否相同，若相同则表示无更新，若不同则表示有更新。若有更新，则执行步骤 105, 即所述发送组成员恢复发送；若没有更新，说明最弱接收组成员没有处理数据报文，最弱接收组成员可能挂起或异常退出，在此情况下执行步骤 114, 即发送组成员把此最弱接收组成员从本地组成员拓朴中删除。如果之后如步骤 116最弱接收组成员恢复数据通信并向发送组成员反馈确认消息。步骤 118, 发送组成员在接收到确认消息之后，判断组成员拓朴中没有该成员，于是向最弱接收组成员发送强迫离开消息，要求最弱接收组成员离开进程组。

步骤 120, 最弱接收组成员在接收到强迫离开消息之后，知道自己已被发送组成员从本地组成员拓朴中删除，但此时进程组中的其他接收组成员并不知道最弱接收组成员已经被发送组成员删除，为了保证所有组成员保存的组成员拓朴一致，最弱接收组成员发送离开消息，通知进程组内其他组成员自己要离开进程组。

步骤 122, 所述进程组内其他组成员接收到离开消息之后，相应地从各自的本地拓朴中删除此最弱接收组成员。

步骤 124, 最弱接收组成员离开进程组，并向组成员数据库释放组成员 id。图 4所示为本发明进程组中的组成员可靠离开的方法的另一实施例的具体流程图。

如图 4所示，该方法包括以下步骤：步骤 202: 发送组成员启动探测定时器记录在预定时间内其发送的数据报文数。

步骤 204: 判断在所述预定时间内记录发送的数据报文数是否为 0。若不为 0, 则执行步骤 205, 即所述发送组成员恢复发送；若为 0, 则发送组成员所维护的发送队列没有更新，最弱接收组成员可能挂起或异常退出，在此情况下执行步骤 206, 即所述发送组成员向进程组内其他组成员组播探测报文，请求进程组内所有组成员应答已按序接收到的数据报文序列号。步骤 208 : 判断最小数据报文序列号有无更新，即判断接收组成员所反馈的数据报文序列号当中的最小数据报文序列号是否与发送探测报文之前记录的最小数据报文序列号相同，若相同则表示无更新，若不同则表示有更新。

若有更新，则执行步骤 205所述，即发送组成员恢复发送；若没有更新，则执行步骤 21 0 , 即发送组成员向最弱接收组成员单播探测报文，请求最弱接收组成员应答已按序接收到的数据报文序列号。

步骤 212 : 再次判断最小数据报文序列号有无更新，即再次判断最弱接收组成员所反馈的数据报文序列号是否与首次发送探测报文之前记录的最小数据报文序列号相同。

若有更新，则执行步骤 205 , 即所述发送组成员恢复发送；若没有更新，说明最弱接收组成员没有处理数据报文，组成员可能挂起或异常退出，在此情况下执行步骤 230 , 即所述发送组成员从本地组成员拓朴中删除最弱接收组成员，同时为保证进程组内所有组成员保存的组成员拓朴一致，在进程组内组播携带最弱接收组成员 i d的踢除组成员报文。步骤 232 , 进程组内的其他组成员接收到此踢除组成员报文后，相应地从各自的本地组成员拓朴中删除此最弱接收组成员。如果之后如步骤 234 , 最弱接收组成员进程恢复数据通信并向发送组成员反馈确认消息。

在步骤 236 , 发送组成员在接收到确认消息之后，判断组成员拓朴中没有该成员，于是便向最弱接收组成员发送强迫离开消息，要求最弱接收组成员离开进程组。

步骤 238 , 最弱接收组成员接收到强迫离开消息之后，知道自己已被发送组成员从本地组成员拓朴中删除，离开进程组并向组成员数据库释放组成员 i d。

在上面方法中，进程组成员离开进程组有以下步骤：

1.进程组成员在组内发送离开消息，等待其他组成员响应离开 ACK 消息。若在规定时间内没有收到所述所有其他组成员反馈的离开 ACK消息，则重传离开消息。在收到所述所有其他组成员反馈的离开 ACK 消息或最多重传了 N次离开消息之后，所述进程组成员退出进程组。

3.组内其他成员收到所述离开消息后，把等待离开的所述进程组成员从各自的本地拓朴中删除。不再处理离开的所述组成员发来的数据报文或 ACK/NACK (nega t i ve acknowl edge , 未确认）控制报文。

另外，本发明实施例还提供一种进程组，包括：

接收组成员，用于接收发送组成员发送的报文，并在接收到发送组成员发送的所述强迫离开消息后，离开进程组。

进一步地，所述发送组成员，还用于在删除所述出现异常的接收组成员之后，在进程组内组播踢除成员报文，其中所述踢除成员报文包括所述出现异常的接收组成员的身份标识。

进一步地，所述接收组成员，还用于在离开进程组之前，向其它接收组成员发送离开消息。

恢复数据通信后，发送组成员发送强迫离消息 ί求述异常组成员离开进程组，所述异常组成员收到强迫离开消息之后离开进程组。由于所述异常组成员离开进程组时，已收到强迫离开消息知道自身已被删除，这样，所述异常组成员在不仅需要往组内发送报文而且需要收到进程组内其它组成员发来的报文时应重新加入进程组。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，所述存储介质可以是只读存储器、磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此, 发明的保护范围应以所述权利要求的保护范围为准。

Claims

权利要求书

1、一种进程组中的异常组成员离开的方法，其特征在于，包括：发送组成员对自身所属进程组中的组成员进行异常检测，并从中确定出现异常的组成员；

所述发送组成员从本地组成员拓朴中删除所述异常组成员；所述发送组成员在所述异常组成员恢复数据通信后，发送强迫离开消息通知所述异常组成员离开所述进程组；所述异常组成员收到所述强迫离开消息后离开所述进程组。

2、如权利要求 1所述的方法，其特征在于，在所述发送组成员对进程组中的组成员进行异常检测之前，发送组成员向进程组中的其它组成员组播数据报文；所述发送组成员在所述异常组成员恢复数据通信后发送强迫离开消息通知所述异常组成员离开进程组包括：所述异常组成员在恢复数据通信后向所述发送组成员反馈确认接收消息；所述发送组成员在接收到所述确认消息后，判断在本地组成员拓朴中有无所述异常组成员；若没有所述异常组成员，则向所述异常组成员发送强迫离开消息，通知所述异常组成员离开进程组。

3、如权利要求 1所述的方法，其特征在于，在所述发送组成员从本地组成员拓朴中删除所述异常组成员之后包括：

所述发送组成员在所述进程组内组播踢除成员报文，其中所述踢除成员报文包括所述异常组成员的组成员标识；

所述进程组内的其它组成员接收到所述踢除成员报文后，从各自的本地组成员拓朴中相应删除所述异常组成员。

4、如权利要求 1所述的方法，其特征在于，在所述异常组成员收到所述强迫离开消息后离开所述进程组之前包括：所述异常组成员向其它组成员发送离开消息，通知所述其它组成员所述异常组成员离开所述进程组；所述其它组成员接收到所述离开消息后从各自的本地组成员拓朴中相应删除所述异常组成员。

5、如权利要求 1所述的方法，其特征在于，所述发送组成员对进程组中的组成员进行异常检测包括：

所述发送组成员记录在预定时间内是否有向其它组成员发送报文；的所述其它组成员出现异常。

6、如权利要求 5所述的方法，其特征在于，在发送组成员对进程组中的组成员进行异常检测之前，所述发送组成员向其它组成员组播数据报文，并接收和记录所述其它组成员反馈的按序接收的数据报文序列号当中的最小数据报文序列号；

所述确定出现异常的组成员包括：

所述发送组成员向其它组成员组播探测报文，请求所述其它组成员反馈所述已按序接收的数据报文序列号；

所述其它组成员接收到所述探测报文后，向所述发送组成员反馈所述按序接收到的数据报文序列号；

所述发送组成员收到所述其它组成员反馈的数据报文序列号后从中确定最小数据报文序列号；

所述发送组成员判断所述最小数据报文序列号与发送所述探测报文之前记录的最小数据报文序列号相比有无更新；

若无更新，则向反馈所述最小数据报文序列号的组成员单播探测报文；

所述反馈最小数据报文序列号的组成员接收到单播的所述探测报文后，再次向所述发送组成员反馈所述按序接收的数据报文序列号；如果所述反馈最小数据报文序列号的组成员已经异常，则不会反馈所述按序接收的数据报文序列号；

所述发送组成员接收到所述反馈的数据报文序列号之后再次判断所述反馈的按序接收的数据报文序列号与所述组播发送的探测报文之前记录的最小数据报文序列号相比有无更新；如果所述发送组成员在探测时限内没有收到所述反馈的数据报文序列号，则判断最小数据报文序列号没有更新；若仍无更新，则确定所述反馈最小数据报文序列号的组成员为异常组成员。

7、一种进程组，其特征在于，包括：

8、如权利要求 7所述的进程组，其特征在于，

所述发送组成员，还用于在删除所述出现异常的接收组成员之后，在进程组内组播踢除成员报文，其中所述踢除成员报文包括所述出现异常的接收组成员的身份标识。

9、如权利要求 7所述的进程组，其特征在于，

所述接收组成员，还用于在离开进程组之前，向其它接收组成员发送离开消息。